增量式与分布式爬虫解决方法-Java教程-爱易网页

增量式与分布式爬虫解决方法

日期：2014-05-17　浏览次数：20806 次

增量式与分布式爬虫
老师要做一个项目，需要我们根据已有的开源爬虫改进，从而实现以下功能:
1.增量式爬取
判断是否为已爬过的内容；
（把已爬过网页的网址保存成索引文件，方便下一次爬的时候进行比对。若网址及内容都相同，则不必写入磁盘；反之则爬取新的内容）

2.记录爬取网站的路径

3.反应所爬取网站的更新内容的日期

4.爬取后存储的文件名根据时间命名

5.边爬边生成html

6.能扩展实现分布式

不知道哪些开源爬虫更适合利用呢？感觉heritrix和nutch都太大了，不好改~ 不知道有没有小的好改一点的爬虫。。。
另外希望大侠们能给我一点意见，学习爬虫看哪些书或者资料比较好？感觉我还处于没入门的状态，只能慢慢自学。。

------解决方案--------------------
我不太知道，帮你顶。
------解决方案--------------------
好吧我也理下你！！
但是我也不知道..
你是不是发错板块了！！

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

相关资料更多>

在weblogic9中怎么设置默认的服务？知道的告诉下。谢～

myeclipse jsp页面乱码有关问题

JDBC里面关于元数据的有关问题

新近面试听到的比较雷人的回答

jsp 能不能实现相仿向.net的生命周期事件

关于jxl设置单元格随内容自动增加宽度的有关问题

初学Struts2 遇到个小疑点，配置方面的，求教…

一个关于终结循环的有关问题

关于request.getParamater("name")若干疑点，html5新特性placeholder

增量式与分布式爬虫解决方法

相关资料更多>

推荐阅读更多>