首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > Java > 微博爬虫

微博爬虫

  • 资源大小:35.97 MB
  • 上传时间:2021-06-29
  • 下载次数:0次
  • 浏览次数:0次
  • 资源积分:1积分
  • 标      签: java 爬虫

资 源 简 介

可用于爬取微博信息 主要循环代码 main loop : rounds of generate - fetch - parse - update # 执行循环,每次执行一层(一个深度)的爬取 # 每层爬取都会执行: # 1.生成本次待爬取任务列表(generate) # 2.抓取爬取列表中页面(fetch) # 3.解析爬取页面(parse),抽取所有链接,以及搜索引擎相关数据(网页标题、网页文本、meta信息等) # 4.将从本次爬取中解析出的链接,更新(update)到$CRAWL_PATH/crawldb中,同时将抓取到的链接的状态(抓取成功、失败、重试次数),更新到$CRAWL_PATH/crawldb中 # LIMIT是bin/crawl命令后参数中给定的 for ((a=1; a <= LIMIT ; a++)) do #nutch爬取是一个长期的任务,如果想结束nutch的爬取,可以在当前目录(执行命令的目录)下,新建一个.STOP文件,每层爬取一开始都会检测目录是否有.STOP文件(-e表示文件是否存在) if [ -e ".STOP" ] then echo "STOP file found - escaping loop" break fi echo `date` ": Iteration $a of $LIMIT" echo "Generating a new segment" #从$CRAWL_PATH/crawldb中,生成待爬取任务列表,并且在segments文件夹下,根据当前时间生成一个文件夹segments/时间,将待爬取任务存放到segments/时间/crawl_generate文件夹中,以SequenceFile的形式存储

文 件 列 表

weibo01
weibo_crawler
src
lib
bin
.classpath
.project
.settings
org.eclipse.core.resources.prefs
CODE_COVERAGE.md
pom.xml
result.png
.settings
VIP VIP
0.180267s