Office中国论坛/Access中国论坛

标题: 关于大乐透开奖数据采集的问题请教? [打印本页]

作者: 真主    时间: 2018-10-4 17:06
标题: 关于大乐透开奖数据采集的问题请教?
本帖最后由 真主 于 2018-10-5 10:45 编辑

(见2楼)如下图所示,通过网页将开奖数据采集下来了,结果发现我采集的数据根本没用,没法追加到“大乐透”表中去,请各位提点,谢谢!
[attach]62828[/attach][attach]62827[/attach]

作者: 真主    时间: 2018-10-5 10:54
已更新,目前能自动下载部份数据,且能自动更新到数据表中
但金额及中奖数无法更新,用的正则表达式处理,但数位长短不一致的,我还没搞懂怎样用正则表达式处理
  1. >(\d{5})[\s\S]*?(\d{2})[\s\S]*?(\d{2})[\s\S]*?(\d{2})[\s\S]*?(\d{2})[\s\S]*?(\d{2})[\s\S]*?(\d{2})[\s\S]*?(\d{2})[\s\S]*?([\d\-]{10})[\s\S]*?
复制代码


[attach]62830[/attach]
[attach]62829[/attach]

作者: roych    时间: 2018-10-9 10:59
\d{1,8}。
不过奖金是含有千分分隔号的,建议先把千分分隔号(逗号)替换掉再处理。
另一种思路是先把tr匹配成分组,再匹配td为分组,用ado进行addnew处理。感觉正则表达式处理表格并不简单。
如果使用VBA的话,我可能会用webbrowser+DOM,用getElemenstByTag或者table集合中的tablerow和tablecol来处理。可能我对选择器比较熟悉吧。
PS:真相是,我会考虑用Python+BeautifulSoup来处理的




欢迎光临 Office中国论坛/Access中国论坛 (http://www.office-cn.net/) Powered by Discuz! X3.3