设为首页收藏本站Access中国

Office中国论坛/Access中国论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

返回列表 发新帖
查看: 3725|回复: 6
打印 上一主题 下一主题

[其它] 网络数据采集问题

[复制链接]
1#
发表于 2016-6-20 10:23:57 | 显示全部楼层
关于网页抓取,我研究不多,不过还是说两句吧。网页抓取主要依靠2种方式:
1、使用webbrowser或者IE组件装载页面后,通过CSS选择器(Selector)来读取数据。
2、发送HTTPRequest请求(深层次则属于Ajax技术),对返回源码进一步处理。
所谓的“正则提取”,只是对源码字符串进行处理的一个手段罢了,谈不上核心技术。事实上,如果不喜欢正则,或者觉得正则表达式测试麻烦的话,也可以用substring(js),instr(vb)之类的函数来处理。
--------------------------------------
说完这些,现在可以来回答这几个问题了:
1和2:通过对源码的分析,应该是先读取内容页列表,然后使用HTTPRequest来发送请求来获取源码,再通过自定义函数createrul来创建链接以及按模板写成页面。因此读取页码或者翻页,只需要先读取内容页列表即可完成。不过里面的脚本文件一对代码,而且是压缩过的。我实在没兴趣,你可以自行下载附件研究。
3:标题和超链接的问题,其实你已经提出解决方案了:那就是正则表达式。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|站长邮箱|小黑屋|手机版|Office中国/Access中国 ( 粤ICP备10043721号-1 )  

GMT+8, 2024-6-14 19:09 , Processed in 0.100004 second(s), 24 queries .

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表