linux nutch1.0装配配置-Linux-爱易网页

linux nutch1.0装配配置

日期：2014-05-16　浏览次数：20604 次

linux nutch1.0安装配置

1，下载nutch1.0

下载地址：http://archive.apache.org/dist/nutch/，下载这个文件nutch-1.0.tar.gz

2，上传到服务器

上传位置：/home/www/，解压nutch-1.0.tar.gz

#tar -xvf?nutch-1.0.tar.gz

重命名

#mv nutch-1.0 nutch

3，修改配置文件

在/home/www/nutch目录下新建urls

#mkdir urls

进入url目录

#cd urls

新建seed.txt文件，写入要抓去的网站地址

#touch seed.txt

#vim seed.txt

往seed.txt文件中写入http://www.163.com

修改配置文件

vim /home/www/nutch/conf/crawl-urlfilter.txt

vim /home/www/nutch/conf/regex-urlfilter.txt

把上面两个文件末尾+都改成+^http://([a-z0-9]*\.)*163.com

4，发布到tomcat

tomcat安装在/usr/local/tomcat位置

把/home/www/nutch/nutch-1.0.war拷贝到tomcat目录的webapps下

#cp /home/www/nutch/nutch-1.0.war /usr/local/tomcat/webapps

启动tomcat

#/usr/local/tomcat/bin/start.sh

修改tomcat中项目的配置文件

#vim /usr/local/tomcat/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml

改成以下代码

<configuration>
<property>
        <name>http.agent.name</name>
        <value>nutch-1.0</value>
</property>
<property>
        <name>searcher.dir</name>
        <value>/home/www/nutch/crawl</value>
</property>
</configuration>

?注意这个地方的http.agent.name，网上的很多安装配置都没写这个，没写这个在最后一步找不到结果的。

修改完以上文件后，重启tomcat

5，抓取网页数据

进入nutch根目录

#cd /home/www/nutch

执行抓取命令

#bin/nutch crawl urls -dir crawl -depth 3 -topN 5

urls：是之前建立的urls抓取网页的文件地址

第二个crawl：是抓取到的内容索引文件存放的位置

depth：要抓取网站顶级网址为起点的爬行深度

threads：指定并发的线程数

topN：一个网站保存的最大页面数

抓取网页的时候，一定要注意想要的网站能ping通，如果不能ping通的话，在/etc/resolv.conf文件中加入以下内容：

nameserver 202.106.0.20

6，搜索内容

打开http://192.168.1.99:8080/nutch-1.0/search.jsp，输入相关内容搜索即可，得到以下页面。

看到这个就大功告成了。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

linux nutch1.0装配配置

相关资料更多>

推荐阅读更多>