首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > C# > 一款用C#开发的网络爬虫程序

一款用C#开发的网络爬虫程序

  • 资源大小:2.26 MB
  • 上传时间:2021-06-29
  • 下载次数:0次
  • 浏览次数:0次
  • 资源积分:1积分
  • 标      签: C# c# 爬虫 网络 程序 开发

资 源 简 介

ShootSearch是一款用C#开发的网络爬虫程序。其内核包含爬虫,存储,网页后期处理,索引生成等。 在抓取网页的过程中,可以灵活的制定多种规则,过滤URL,内置一个可无限增长的后继队列模块,可以随时暂停或者停止抓取,抓取的网页可以分时或者按照指 定大小切块存储(自定义的大文件系统)。 在网页的处理过程中,内置一个规则处理引擎,可以通过编写正则表达式灵活的提取或者过滤文字信息,将有用的信息存储到数据库(通用的数据库接口)或者 生成索引(支持Lucene和Hubble.NET)。 内置一个支持Lucene的中文切词模块。 基于Quartz.NET的任务调度(),每一个步骤(抓取,处理,生成索引)都是一个Job,每个Job都可以根据XML来灵活组合和扩充。 内置多种接口,开发人员可随时根据需求自己开发替换某个模块。

文 件 列 表

ShootSearch
ShootSearch
lib
Documents
.svn
entries
ShootSearch 0.3.sln
ShootSearch.Runner
App.config
ShootSearch.Tests
App.config
ShootSearch.Tools
FormBrowserFS.cs
ShootSearch.WebSearch
Default.aspx
SVNHelper.exe
.svn
ShootSearch.Runner
ShootSearch.Tests
ShootSearch.Tools
ShootSearch.WebSearch
read me.txt
VIP VIP
0.180718s