日期:2014-05-17  浏览次数:21011 次

nutch 在windows xp下的部署
准备工作:
Cygwin 的安装过程,请参看官方的帮助文档[url]http://cygwin.com/cygwin-ug-net/setup-net.html[/url]。
jdk的安装。不再详述。
nutch的下载。请到官方网站:[url]http://nutch.apache.org/[/url]
nutch下载成功到解压的自己的合适目录下。


开始工作:
在nutch/bin下新建urls文件夹,进入该文件夹新建url.txt,内部写入某个具体网址,如http://www.iteye.com
修改nutch-site.xml,在configure元素内添加如下代码
       <property>
            <name>http.agent.name</name>
            <value>HD nutch agent</value>
       </property>
       <property>
            <name>http.agent.version</name>
            <value>1.0</value>
       </property>

否则会报没有设置代理服务器异常。
添加过滤网址,在nutch/conf下的crawl-urlfilter.txt中,将
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
修改为
# accept hosts in MY.DOMAIN.NAME
# +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+^http://www.iteye.com

这样就可以通过命令nutch crawl urls –dir d://testcrawl –depth 3爬网络数据,爬过来的索引数据存放在d://testcrawl。
将nutch-0.9.war放到tomcat的webapp下,启动tomcat服务器,会自动生成nutch web应用程序包,删除原先的war。
修改nutch-0.9\WEB-INF\classes中的crawl-urlfilter.txt,添加+^http://www.iteye.com
在nutch-0.9\WEB-INF\classes中的nutch-site.xml中添加索引库映射
<property> 
  <name>searcher.dir</name> 
  <value>D:\testcrawl</value> 
</property>

修改nutch下的search.jsp,将
<jsp:include page=“<%= language + "/include/header.html"%>”/>修改为
<jsp:include page='<%= language + "/include/header.html"%>'/>
不然会报语言异常。
打开http://localhost:8080/nutch,如果看到搜索页面,输入存在的关键字,有数据就说明nutch已经成功部署了。