首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > 其他 > 网络定向爬虫 网页定向采集系统。采集规则的描述使用基于正则表达式的XML配置文件。

网络定向爬虫 网页定向采集系统。采集规则的描述使用基于正则表达式的XML配置文件。

资 源 简 介

可以配置爬取规则的网络定向爬虫——网页定向采集器。 爬虫的动作不过是下载页面、抽取链接、跳转下一个页面,如此重复。 将这样的重复动作抽取出来,即使对不同的网站,只用编写对应的爬取规则文件,就可以不用额外代码的实现对该站点的爬取。客户端代码将每个页面的抽取结果看做字符串流处理即可。 系统经过若干项目的测试,成功爬取了上千万个网页,性能比较鲁棒。 如果需要采集多个网页,可通过增加XML文件中节点实现。 可以个性化定制: 1) 页面的抽取内容 2) 抽取后的处理动作(过滤或者替换) 3) 对最终采集得到的信息的处理方式(存入数据库、制作索引等)

文 件 列 表

src
com
VIP VIP
0.187908s