网络数据采集问题

roych · 发表于 2016-6-20 10:23:57

关于网页抓取，我研究不多，不过还是说两句吧。网页抓取主要依靠2种方式：
1、使用webbrowser或者IE组件装载页面后，通过CSS选择器（Selector）来读取数据。
2、发送HTTPRequest请求（深层次则属于Ajax技术），对返回源码进一步处理。
所谓的“正则提取”，只是对源码字符串进行处理的一个手段罢了，谈不上核心技术。事实上，如果不喜欢正则，或者觉得正则表达式测试麻烦的话，也可以用substring（js），instr（vb）之类的函数来处理。
--------------------------------------
说完这些，现在可以来回答这几个问题了：
1和2：通过对源码的分析，应该是先读取内容页列表，然后使用HTTPRequest来发送请求来获取源码，再通过自定义函数createrul来创建链接以及按模板写成页面。因此读取页码或者翻页，只需要先读取内容页列表即可完成。不过里面的脚本文件一对代码，而且是压缩过的。我实在没兴趣，你可以自行下载附件研究。
3：标题和超链接的问题，其实你已经提出解决方案了：那就是正则表达式。

帐号		自动登录	找回密码
密码			注册

群介绍
Access培训群 (792054000)
Access免费培训2群 (163530137)
Access免费培训群 (833510950)
Access免费培训群2 (792054000)
Access交流总群 (5004108)

主题相关群

地区相关群[您还没设置居住地]

[其它] 网络数据采集问题

本帖子中包含更多资源

群介绍
主题无相 (随机显示版	同地区群块其他地区)