WebCollector网络爬虫框架 v2.x 源码下载

来源:脚本之家  责任编辑:小易  

crawlPath指的是链接数据库文件的保存位置。需要一个文件目录字符串来指定位置。/crawlpath这样。或者F://a/b这样www.zgxue.com防采集请勿采集本网。

源码大小:17.2MB 源码语言:简体中文 源码类型:国产软件 源码授权:免费软件 更新时间:2020-08-13 15:35:46 源码类别:java源码 源码官网: 官方网址 网友评分:源码评分 应用平台:JAVA

 WebCollector是一个无须配置、便于二次开发的Java爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。

WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。2.x版本中集成了selenium,可以处理JavaScript生成的数据。

WebCollector特性:

1、自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX

2、可以为每个 URL 设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST 参数传递、增量更新等。

3、使用插件机制,用户可定制自己的Http请求、过滤器、执行器等插件。

4、内置一套基于内存的插件(RamCrawler),不依赖文件系统或数据库,适合一次性爬取,例如实时爬取搜索引擎。

5、内置一套基于 Berkeley DB(BreadthCrawler)的插件:适合处理长期和大量级的任务,并具有断点爬取功能,不会因为宕机、关闭导致数据丢失。

6、集成 selenium,可以对 JavaScript 生成信息进行抽取

7、可轻松自定义 http 请求,并内置多代理随机切换功能。 可通过定义 http 请求实现模拟登录。

8、使用 slf4j 作为日志门面,可对接多种日志

9、使用类似Hadoop的Configuration机制,可为每个爬虫定制配置信息。

下载地址如下:

网硕互联电信下载

港中数据电信下载

河南紫田网通下载

易阳网络电信下载

酷云中国电信下载

易阳IDC电信下载

群英网络电信下载

烽火云集电信下载

网盾科技电信下载

创梦网络电信下载

有些人问,开发网络爬2113虫应该选择Nutch、5261Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里4102按照我的经验随便扯淡一下:1653上面说的爬虫,基本可以分3类: 1.分布式爬虫:Nutch 2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector 3. 非JAVA单机爬虫:scrapy 第一类:分布式爬虫 爬虫使用分布式,主要是解决两个问题: 1)海量URL管理 2)网速 现在比较流行的分布式爬虫,是Apache的Nutch。但是对于大多数用户来说,Nutch是这几类爬虫里,最不好的选择,理由如下: 1)Nutch是为搜索引擎设计的爬虫,大多数用户是需要一个做精准数据爬取(精抽取)的爬虫。Nutch运行的一套流程里,有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说,用Nutch做数据抽取,会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发,来使得它适用于精抽取的业务,基本上就要破坏Nutch的框架,把Nutch改的面目全非,有修改Nutch的能力,真的不如自己重新写一个分布式爬虫框架了。 2)Nutch依赖hadoop运行,hadoop本身会消耗很多的时间。如果集群机器数量较少,爬取速度反而不如单机爬虫快。 3)Nutch虽然有一套插件机制,而且作为亮点宣传。可以看到一些开源的Nutch插件,提供精抽取的功能。但是开发过Nutch插件的人都知道,Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件,使得程序的编写和调试都变得异常困难,更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点,而这五六个挂载点都是为了搜索引擎服务的,并没有为精抽取提供挂载点。大多数Nutch的精抽取插件,都是挂载在“页面解析”(parser)这个挂载点的,这个挂载点其实是为了解析链接(为后续爬取提供URL),以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text文本)。 4)用Nutch进行爬虫的二次开发,爬虫的编写和调试所需的时间,往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高,何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。 5)很多人说Nutch2有gora,可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了,这里说的持久化数据,是指将URL信息(URL管理所需要的数据)存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说,URL信息存在哪里无所谓。 6)Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1,但是这个版本绑定了gora-0.3。如果想用hbase配合nutch(大多数人用nutch2就是为了用hbase),只能使用0.90版本左右的hbase,相应的就要将hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比较有误导作用,Nutch2的教程有两个,分别是Nutch1.x和Nutch2.x,这个Nutch2.x官网上写的是可以支持到hbase 0.94。但是实际上,这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本,这个版本在官方的SVN中不断更新。而且非常不稳定(一直在修改)。 所以,如果你不是要做搜索引擎,尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风,非要选择Nutch来开发精抽取的爬虫,其实是冲着Nutch的名气(Nutch作者是Doug Cutting),当然最后的结果往往是项目延期完成。 如果你是要做搜索引擎,Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合,就可以构成一套非常强大的搜索引擎了。如果非要用Nutch2的话,建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本内容来自www.zgxue.com请勿采集。


  • 本文相关:
  • webcollector网络爬虫中please add at least one s...
  • Java中webcollector爬虫框架异常,该怎么解决
  • 基于WebCollector开发的爬虫能够在android上运行吗
  • 网站首页源码下载asp源码php源码.net源码jsp源码软件开发脚本下载js框架网站地图网页游戏黑客源码数据库类其它源码整站系统博客程序留言聊天企业网站新闻文章ajax相关搜索链接文件管理交友会员上传下载投票调查框架模板整站系统新闻文章留言聊天博客系统贺卡图片ajax相关文件管理问答系统社区论坛上传下载整站系统控件组件新闻文章主机域名计数统计小偷采集电子商务学校班级 社区论坛上传下载投票调查blog程序留言聊天整站系统社区论坛上传下载投票调查数据管理jsp其它c#源码易语言源码delphi源码vb源码java源码其它菜单导航tab标签焦 点 图在线客服css特效相册代码flash特效批处理其它jqueryextjsprototypemootoolsajax/javascript其它框架主页源码下载软件开发java源码webcollector网络爬虫框架 v2.xibase4j分布式系统 v2.1.0dubbo服务框架 v2.7.8weui微信ui库 v2.4.0jswebrtc简易播放器 v1.0webcollector网络爬虫框架junit4 jar包 java单元测试框架 v4.12 绿色免费版junit4 jar包 java单元测试框架 v4.12 绿色免费版下载publiccms开源java系统 v4.0.190312publiccms开源java系统 v4.0.190312下载若依后台管理系统 ruoyi v4.1若依后台管理系统 ruoyi v4.1下载qq 聊天机器人小薇(xiaov) v2.2.2qq 聊天机器人小薇(xiaov) v2.2.2下载jsh_erp 开源版j2ee进销存系统代码源码 v1.0.2jsh_erp 开源版j2ee进销存系统代码源码 v1.0.2下载javashop b2c开源电商系统 v6.3.2javashop b2c开源电商系统 v6.3.2下载examstack开源考试系统examstack开源考试系统下载因酷时代(inxedu)在线教育系统 v2.0.6因酷时代(inxedu)在线教育系统 v2.0.6下载jeewx 捷微微信管家平台 v4.1jeewx 捷微微信管家平台 v4.1下载找不到分享码?ibase4j分布式系统 v2.1.0dubbo服务框架 v2.7.8weui微信ui库 v2.4.0jswebrtc简易播放器 v1.0jwchat极简聊天框组件 v0.2.42jfast快速开发平台 v1.2eova(jfinal快速简单开发平台) v1.6.0 taoshop电商系统 v1.0docsite静态站点搭建工具 v1.2.3xxm个人知识管理工具 v6.0.5分享码的获取方法迅雷winrar v5c#源码易语言源码delphi源码vb源码java源码其它webcollector网络爬虫框架 v2.xj2eefast企业级快速开发平台 v2.0.8ibase4j分布式系统 v2.1.0dubbo服务框架 v2.7.8weui微信ui库 v2.4.0jswebrtc简易播放器 v1.0jwchat极简聊天框组件 v0.2.42jfast快速开发平台 v1.2eova(jfinal快速简单开发平台) v1.6.0 taoshop电商系统 v1.0chrome
    免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
    Copyright © 2017 www.zgxue.com All Rights Reserved