请问一个关于nutch的简单有关问题-Java教程-爱易网页

请问一个关于nutch的简单有关问题

日期：2014-05-19　浏览次数：20647 次

请教一个关于nutch的简单问题！
现在我已经把nutch部署到我的j2ee项目里，但是按照需求，用户是可以维护入口网址和过滤网址的，也就是说，我要用做一个模块给终端用户用，用户可以添加多个和删除多个nutch起始搜索的网址。

我该怎么做呢？

我这里有一个想法但不成熟：
[nutch]#bin/nutch crawl urls -dir crawl.demo -depth 2 -threads 4 -topN 50 >& crawl.log

在上面的这个命令中，urls是一个目录，里面有一个文件（多个文件可以吗？crawl会搜索这下面所有的文件中的地址码？）用来记录入口地址的网址的，那么当用户维护入口网址的时候我就对应的在urls目录里生成或删除带有网页地址信息的文件。那么当运行crawl命令抓取网页的时候，会把URL下面的所有文件中的网页地址作为入口地址，这个想法好吗？这样做有什么问题吗？

关于过滤地址，crawl-urlfilter.txt 中有记录，当用户维护过滤地址的时候，我要操作这个文本文件吗？这样不方便吧！

有相关经验的还请赐教！
多谢！

------解决方案--------------------
坐等高人回答问题

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

请问一个关于nutch的简单有关问题

相关资料更多>

推荐阅读更多>