日期:2014-05-16  浏览次数:20748 次

Linux下将Nutch1.3导入eclipse

1、准备工作

     首先去官网下载好 apache-nutch-1.3-bin.zip

      解压apache-nutch-1.3-bin.zip

           [pig@CentOs ]$ unzip   apache-nutch-1.3-bin.zip

      解压后生成的文件夹 nutch-1.3

      Apache官只有最近版本,没有1.3的了,我已将相关版本分享到  http://yunpan.cn/Q9LQVKuhBnSJ3


2、新建项目,导入jar包以及配置文件和插件

      a、在eclipse中新建一个Java项目,取名 nutch-1.43         

      b、将解压后生成的文件夹中的src中的java里面的所有内容复制到项目的src下;

      c、将runtime/local下的conf (必选)、 plugins(可选)文件夹复制到项目中,与src同级;

      d、将conf文件夹添加为Source  Folder ;

      e、将runtime/local中的lib下面的jar包添加到classpath,方法是右键项目 -> Bulid Path -> Add External Archives ,找到工作目录下的lib,选中所有的jar即可。


3、修改conf下相关配置文件

     

     3.1 修改  nutch-default.xml

             a、配置http.agent.name如图:

            

           代码 :

<property>
  <name>http.agent.name</name>
  <value>pig</value>
  <description>HTTP 'User-Agent' request header. MUST NOT be empty - 
  please set this to a single word uniquely related to your organization.

  NOTE: You should also check other related properties:

	http.robots.agents
	http.agent.description
	http.agent.url
	http.agent.email
	http.agent.version

  and set their values appropriately.

  </description>
</property>

          b、修改http.agent.version ,如图:


         代码:

<property>
  <name>http.agent.version</name>
  <value>Nutch-1.3</value>
  <description>A version string to advertise in the User-Agent 
   header.</description>
</property>

         c、修改plugin.folders ,如图:


     代码: