nutch在单机windows上测试环境的配置-Windows教程-爱易网页

nutch在单机windows上测试环境的配置

日期：2014-05-17　浏览次数：20873 次

nutch在单机windows下测试环境的配置
通常来说nutch应该部署在多台机器上，做并行抓取，那么配置nutch在单机windows下有什么意义呢？就是方便debug。

下面分步骤详述。
1.安装JDK 6，eclipse3.2以上版本
2.为eclise安装IBM mapreduce tools插件
http://www.alphaworks.ibm.com/tech/mapreducetools
3.安装cygwin，并设置环境变量
4.下载nutch源代码，我使用的是最新的1.0版本
5.在eclipse中创建MapReduce Project工程。将nutch下的src/java下的所有代码复制到工程的src目录下，a并将其依赖的jar导入工程路径。
6.将nutch/conf 下的配置文件复制到classloder可以找到的路径，我是复制在bin下
7.修改org.apache.nutch.crawl.Crawl,在main()里加入一句

conf.set("hadoop.job.ugi", "你的帐号名,你的系统密码");

或者在nutch-site.xml加入

<property>
  <name>hadoop.job.ugi</name>
  <value>你的帐号名,你的系统密码</value>
  <description></description>
</property>

8.运行org.apache.nutch.crawl.Crawl类，命令行参数可以如下：

D:\test-nutch\urls -dir D:\test-nutch -depth 3 -topN 100 -threads 5

，head溢出的话，请调整内存参数

如果运行成功的话，你就可以使用luke来查看索引文件了。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

nutch在单机windows上测试环境的配置

相关资料更多>

推荐阅读更多>