设为首页收藏本站Access中国
Office中国(www.office-cn.net),专业Office论坛

Office中国论坛/Access中国论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

返回列表 发新帖
查看: 4185|回复: 3

Excel VBA网抓教程【你学得会】

[复制链接]

点击这里给我发消息

发表于 2016-3-11 15:36:45 | 显示全部楼层 |阅读模式

讲师简介:阿航
1、擅长讲授Access、Excel、Word、PPT等办公应用和vba开发等相关课程
2、Office中国金牌讲师,从事企业信息系统解决方案专业认识,善于Access等Office软件和企业级管理系统的开发,开发过多套商业管理软件
3、拥有多年C#,VB和VBA开发经验和教学经验


国内首套系统化专业化的Excel VBA网抓培训视频。

网抓就是“网页抓取”,不是“撒网抓鱼”,网抓不需要打开浏览器,即可直接获取网页的内容。根据自己的需要抓取网页内相关的信息,综合抓取到的内容,对自己效率和产品进行提升和改善,从而提升竞争力。
杨老师通过《Excel VBA网抓教程【你学得会】》的课程教你如何进行网抓。包括web控件,QueryTable,公式,系统组件等方法去抓取数据,以实例带动,逐步深入。

此网抓教程同时适用于所有用VBA开发的程序中

课程目标:
学会使用Excel VBA进行网络抓取,善于利用网络的资源,抓取有用信息,提高工作效率;同时利用有效的信息,知己知皮,提升效益。

适用人群:
所有喜欢Excel的并且对网抓有一定兴趣的学员,最好有一定的VBA基础。

咨询方式
如遇问题或者想深入学习。可咨询QQ:1918333016

课程视频详细索引请看下面跟贴第二贴
如需要购买本地高清版,可以联系qq:4008553990
Excel培训群  274435496






更多学习资源:
美女MVP教你轻松学习Excel VBA                    
http://www.office-cn.net/thread-120942-1-1.html
Excel2016培训实战视频课程                             http://www.office-cn.net/thread-121113-1-1.html
Excel图表实战视频课程【你学得会】                http://www.office-cn.net/thread-121141-1-1.html
Excel公式入门实战视频课程【你学得会】         http://www.office-cn.net/thread-121268-1-1.html
Excel数据透视表实战视频课程【你学得会】     http://www.office-cn.net/thread-121316-1-1.html
Excel条件格式实战视频课程【你学得会】         http://www.office-cn.net/thread-121370-1-1.html


最全的Excel Access ppt vsto 等Office 培训教程、在线帮助、编程手册,一网打尽(必看)
http://www.office-cn.net/thread-120931-1-1.html


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

点击这里给我发消息

 楼主| 发表于 2016-3-11 15:39:08 | 显示全部楼层


第一课时:初识网页抓取
课时介绍:这节课开始讲解vba网抓的内容,首先了解整个课程大纲:什么是网抓(网页抓取)、需要什么知识(html,http,编程,josn,正则)、网抓的流程(网址,请求,响应请求,分析处理数据)、网抓的方法(系统组件,web控件,querytable,公式)、课程的结构(以实例带动,逐步深入)、版本如何选择等基本问题。
点击播放

第二课时:简单的网抓实例(1)
课时介绍:这节课讲网抓的实例应用。先对网抓有个感性的认识,主要是根据手机号来获取归属地,然后写成自定义函数。详细分析这个函数的具体代码的含义。
点击播放

第三课时:简单的网抓实例(2)
课时介绍:接着上节课讲解剩下的代码。解释一下网抓的原理(发送请求到相关接口,返回得到的结果,最后就是处理字符串),同时要注意一下,网抓是有时效性的。
点击播放

第四课时:XmlHttp属性和方法
课时介绍:详细讲解XmlHttp的内容,XMLHttp是早期用于远程数据库管理的,主要是传送xml格式数据的超文本传输协议。绑定方式可以分为直接引用和后期绑定,最后介绍几个属性和方法:responseBody,responseText,readyState属性;open,send,setRequestHeader,getResponseHeader方法
点击播放

第五课时:百度搜索结果(1)
课时介绍:这节课结合一下上节课讲的xmlhtml的属性和方法来讲一个应用:百度搜索的结果。通过书写百度网址,可以得到对应的结果,这类请求属于GET方式http://具体网址?参数名1=值1?&参数名2=值2.还有一种POST方式,参数写在发送请求中, 可以提交更多的数据。
点击播放

第六课时:百度搜索结果(2)
课时介绍:上节课讲了百度搜索获得结果的数目,这节课继续讲得到结果的列表。
点击播放

第七课时:百度搜索结果(3)
课时介绍:接着上节课内容,我们获取标题和链接。最后分析网抓得到的数据,处理网抓得到的数据
点击播放

第八课时:html基础知识
课时介绍:这节课讲一下关于html的内容,html是用于描述网页的一种语言,全名是超文本标记语言,它不是编程语言,没有编程逻辑结构,由浏览器来解析,有一整套标记标签来描述网页。标签有尖括号包围关键词,大部分是成对出现的,也有单独出现的。标签还能相互嵌套
点击播放

第九课时:常见的html标签(1)
课时介绍:这节课讲常用的标签,包括标题标签,文本标签,超链接标签,图片标签,表格标签,列表标签。先讲前面3个,h1,h2等标题大小标签,p分段标签,a链接标签
点击播放

第十课时:常见的html标签(2)
课时介绍:这节课继续讲标签,图片标签img ,img标签没有结束标签。表格标签相关的有表格table,行tr,单元格td,标题th。其中还有一些属性,比如边框大小border,边距cellpadding。还有列表标签:无序列表:ol 和有序列表 ul
点击播放

第十一课时:获取外网IP引发的事情(1)
课时介绍:前面插着讲了关于html相关内容,这节课继续讲一个例子,此实例会引发一些事情。首先我们需要先了解一下网址来源,IP地址分为外网和内网。内网可以用cmd命令ipconfig获取,外网可以访问其他网址提供的信息。
点击播放

第十二课时:获取外网IP引发的事情(2)
课时介绍:上节课我们讲了获取外网地址会引发转码的问题。这里我们讲一下处理方法,用responseBody结合strconv转码和用ADODB.stream转码。普通的字符串函数处理,易用,不灵活,效率不高;使用正则表达式处理,难用,灵活,效率高。
点击播放

第十三课时:vba正则表达式(1)
课时介绍:vba正则表达式是难点,但是用起来会非常方便。首先看一下如何创建正则表达式。正则表达式是一种高效率、强大的字符串处理对象,设定一串匹配文字,去查找对应的结果。可直接引用和后期绑定。在看看几个基本属性和方法:Global,IgnoreCase,Multiline,Pattern,execute,replace,test
点击播放

第十四课时:vba正则表达式(2)
课时介绍:vba正则表达式最重要的就是表达式。这里我们引出元字符的概念,是正则表达式的语言。如点号(.)匹配除换行符之外的任意字符;\d匹配数字;\D匹配非数字;\w匹配数字、大小写字母和下划线等
点击播放

第十五课时:vba正则表达式(3)
课时介绍:上节课讲过了元字符,这节课讲限定符。用来控制匹配的数量和位置。用得比较多的有5个:^匹配开头;$匹配结尾;*匹配前面字符至少0次,相当于{0,};+匹配前面字符至少1次,相当于{1,};?匹配前面字符至多1次,相当于{0,1}。
点击播放

第十六课时:vba正则表达式(4)
课时介绍:前面讲了元字符和限定符,但是也不能完全满足各种情况,这里讲一下多选结构:提供多种选择的方案。比如(x|y|abc)匹配|之间其中任意一组;[abc123]匹配[]之间任意一个字符;[a-z]匹配全部小写字母。
点击播放

第十七课时:vba正则表达式(5)
课时介绍:前面讲了一些概念,有涉及到斜杠“\” 这些正则表达式的特殊字符。那么如果想匹配\.[]等这些字符呢?这时我们需要在前面再加斜杠“\”转义。如"\\" 其意义为单个斜杠"\"
点击播放

第十八课时:正则表达式匹配百度搜索(1)
课时介绍:前面我们讲了获取百度搜索结果,主要是通过Get的方法来书写网址。现在用正则表达式来处理一下。主要也是两个方面的内容:获取搜索结果数量,获取每个条目的标题和链接
点击播放

第十九课时:正则表达式匹配百度搜索(2)
课时介绍:接着上节课的内容,继续讲解用正则表达式匹配百度搜索结果。这里讲一下我们利用在线工具辅助分析。搜索“在线正则表达式”即可找到,能方便处理很多表达式。
点击播放

第二十课时:获取北京时间引发的问题(1)
课时介绍:今天会继续讲一个实例:获取北京时间。输出结果,发现未找到数据:该网页是异步的(采用webserver),数据被隐藏了(分析js代码)
点击播放

点击这里给我发消息

 楼主| 发表于 2016-3-11 16:02:31 | 显示全部楼层
第二十一课时:获取北京时间引发的问题(2)
课时介绍:这节课我们继续处理获取北京时间引发问题的。多次输出结果,发现数据未变动:缓存了。1可以Get请求,URL多加一个随机参数;2设置头信息,申明不要缓存;3用winhttp代替Xmlhttp
点击播放


第二十二课时:Fiddler安装和使用
课时介绍:这节课讲一个相当有用的网抓工具:Fiddler。它是一个http协议调试代理工具,它可以抓取http数据包,得到相关的请求和响应等信息,主要用于调试和抓包。安装的时候需要有.net框架
点击播放

第二十三课时:Fiddler分析IP138
课时介绍:这节课开始结合Fiddler这个工具来做些实例,先来分析一下IP138这个网站。前面我们说过网抓有时效性。通过这个工具,我们可以快速地抓取到具体的地址
点击播放

第二十四课时:网抓天气预报(1)
课时介绍:这节课开始,我们会花多节课的时候来讲一下天气预报的网站。天气预报有现成接口,本实例直接抓取“中国天气网”的数据。通过上节课讲的fiddler工具结合,很快就能取得结果了
点击播放

第二十五课时:网抓天气预报(2)
课时介绍:上节课简单讲了天气预报如何获取数据进行网抓分析。取到数据后,我们可以用代码处理,用xmlHttp 抓取数据,用RegExp匹配数据。
点击播放

第二十六课时:网抓天气预报(3)
课时介绍:接着上节课的内容,继续用正则表达式去处理数据。最后就是整理城市代码表,把结果放到表格上。这样我们的网抓天气预报就做好了。
点击播放

第二十七课时:快递查询(防盗链和JSON)(1)
课时介绍:由于部分学员对Fiddler还不是很熟悉。这里再举一个实例说明一下,其中会加进防盗链和JSON的说明。实例我们选择了快递单号查询。通过单号查询快递的信息和状态。快递查询有现成接口(需要注册等)本实例直接抓取“快递100”的数据
点击播放

第二十八课时:快递查询(防盗链和JSON)(2)
课时介绍:上节课讲到防盗链。有的网站为了流量,或者防止别人盗用等原因。会采取防盗链。防盗链有很多方式:来源网址,cookies等,下面我们讲讲如何跳过防盗链去获取数据。
点击播放

第二十九课时:快递查询(防盗链和JSON)(3)
课时介绍:上节课讲的JSON的内容,Json的解释方式有:有JavaScript解析,自己写代码解析和用其他的代码解析。这节课讲一下具体是如何解释的。
点击播放

第三十课时:快递查询(防盗链和JSON)(4)
课时介绍:前面已经把整个快递查询的内容讲过了。包括网抓分析,防盗链处理,Json解析。最后一个步骤就是程序优化了。把整理好的内容放到表格上
点击播放

第三十一课时:中英互译(POST提交数据)(1)
课时介绍:前面我们讲的都是GET请求方式,这节课我们讲讲POST提交数据。这里以中英互译这个实例为基础展开。我们使用有道翻译,抓取其数据。使用POST提交不同于GET提交(数据写在URL上),而且 数据更安全,数据没有限制。
点击播放

第三十二课时:中英互译(POST提交数据)(2)
课时介绍:前面基本通过fiddler工具来抓取到数据了。也了解到POST和GET提交方式的区别。这里我们再优化一下,POST数据提交有不同的方案,设置Content-Type和消息编码。
点击播放

第三十三课时:登录和管理(1)
课时介绍:这节课讲登录和管理,我们通过前面学习的知识来登录一个网站,登录后再去获取其他数据。再有些操作需要登录之后才可以操作的。我们通过登录多米音乐网站来编辑歌单这个实例来讲解一下。
点击播放

第三十四课时:登录和管理(2)
课时介绍:接着上节课的内容,来继续讲解网站登录。网站本质就是数据的操作。客户端:通过访问链接,请求数据。服务端:后台处理请求,返回数据。
点击播放

第三十五课时:利用Cookie绕过登录
课时介绍:上节课讲了用POST的方式直接提交用户名登录。这节课我们讲一下用cookie如何绕过登录。http协议是无状态的,服务器不知道客户端干嘛,只认提交的数据。登录之后,在客户端留了标记(cookie)之后再喝其他数据一起提交,判断是否登录了。所以我们可以用cookie欺骗来登录
点击播放

第三十六课时:网抓其他资源(下载文件)
课时介绍:这节课要补充讲一个内容,如何去网抓其他资源文件(下载文件)。网抓不止可以抓取文字,还可以抓取图片,其他文件等。文件都是二进制形式保存,用responseBody属性得到二进制六
点击播放

第三十七课时:IE控件抓取淘宝搜索结果(1)
课时介绍:这节课开始讲IEweb控件抓取数据,以抓取淘宝搜索结果为实例。如果用xmlhttp和winhttp来抓取淘宝的页面。抓取到的是服务器返回来的数据。而很多数据都隐藏在js后面。
点击播放

第三十八课时:IE控件抓取淘宝搜索结果(2)
课时介绍:这节课正式讲解用IE Web控件抓取淘宝搜索结果,IEWebBrowser控件是一个浏览器,完整的一个执行过程。非常方便地抓取到搜索结果
点击播放

第三十九课时:IE控件抓取淘宝搜索结果(3)
课时介绍:继续完善IE控件抓取淘宝搜索结果,讲到正则表达式匹配的内容。整理处理结果,优化excel表格,改善搜索窗体。
点击播放

第四十课时:IE控件登录邮箱(1)
课时介绍:有的网站登录是比较麻烦的,需要用到IE控件来登录。这节课主要以登录邮箱为实例。IE WebBrowser控件最大不同就是可以执行js代码
点击播放

第四十一课时:IE控件登录邮箱(2)
课时介绍:上节课简单的讲了整个登录流程。但是事例还没有完全讲。这里要注意一下获取页面代码为window.Document.Body.innerHTML ,获取页面文本Window.Document.Body.innerText
点击播放

第四十二课时:QueryTable处理Table标签
课时介绍:这节课讲QueryTable处理Table标签。Table标签是显示表格的标签,从html代码看,处理比较复杂,可以用querytable对象处理。可以不用写代码,直接刷新数据。可以通过菜单创建querytable,或者整个操作录制成宏。
点击播放

第四十三课时:WebService网抓公式
课时介绍:最后一节网抓的课程。主要讲一套WebService的网抓公式。从excel2013开始加入了网络公式,webService 抓取某个链接的数据;filterXML 解析XML格式的数据;EnCodeurl 返回字符URL编码。
点击播放




发表于 2016-3-11 21:56:22 | 显示全部楼层
目录不错,刚听了一节阿航的讲课,有点短,还没有听出内容提要就结束了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|站长邮箱|小黑屋|手机版|Office中国/Access中国 ( 粤ICP备10043721号-1 )  

GMT+8, 2018-11-16 11:08 , Processed in 0.136459 second(s), 35 queries .

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表