日期:2014-05-19  浏览次数:20575 次

请教一个关于nutch的简单问题!
现在我已经把nutch部署到我的j2ee项目里,但是按照需求,用户是可以维护入口网址和过滤网址的,也就是说,我要用做一个模块给终端用户用,用户可以添加多个和删除多个nutch起始搜索的网址。

我该怎么做呢?

我这里有一个想法但不成熟:
[nutch]#bin/nutch crawl urls -dir crawl.demo -depth 2 -threads 4 -topN 50 >& crawl.log

在上面的这个命令中,urls是一个目录,里面有一个文件(多个文件可以吗?crawl会搜索这下面所有的文件中的地址码?)用来记录入口地址的网址的,那么当用户维护入口网址的时候我就对应的在urls目录里生成或删除带有网页地址信息的文件。那么当运行crawl命令抓取网页的时候,会把URL下面的所有文件中的网页地址作为入口地址,这个想法好吗?这样做有什么问题吗?

关于过滤地址,crawl-urlfilter.txt 中有记录,当用户维护过滤地址的时候,我要操作这个文本文件吗?这样不方便吧!


有相关经验的还请赐教!
多谢!

------解决方案--------------------
坐等高人回答问题