首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > 其他 > 网络爬虫源码

网络爬虫源码

资 源 简 介

网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。 httpclient+正则表达式

文 件 列 表

HttpClient
DownloadPage.java
FunctionUtils.java
HrefOfPage.java
Test.java
UrlDataHanding.java
UrlQueue.java
VisitedUrlQueue.java
VIP VIP
0.172238s