日期:2014-05-16 浏览次数:20621 次
?
VMware Workstation虚拟机
Linux操作系统镜像实例使用红帽社区的centos
Java Jdk包,实例使用jdk-6u23-linux-i586.bin包:备注不要下载安装jdk-6u23-linux-i586-rpm.bin包会导致tomcat无法启动
Tomcat 服务器实例采用apache-tomcat-6.0.29.tar.gz
Nutch 包,实例采用apache-nutch-1.2-bin.zip包
现在虚拟机中安装好centos镜像,直到进入linux操作界面为止。
上传所用的包到linux系统~/tmp目录下,~表示用户目录
启动linux控制台,
?
#cd ~/tmp #chmod a+x jdk-6u23-linux-i586.bin #sh jdk-6u23-linux-i586.bin #mkdir /usr/java #mv jdk1.6.0_23 /usr/java/?
?
配置用户环境变量
?
#vi ~/.bash_profile #java export JAVA_HOME=/usr/java/jdk1.6.0_23 export CLASSPATH=.:/usr/java/jdk1.6.0_23/lib:/usr/java/jdk1.6.0_23/jre/lib:$CLASSPATH #path export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH #source ~/.bash_profile?
?
测试
?
#java –version?
?
输出
java version "1.6.0_23"
Java(TM) SE Runtime Environment (build 1.6.0_23-b05)
Java HotSpot(TM) Client VM (build 19.0-b09, mixed mode, sharing)
Jdk安装成功
?
#unzip apache-nutch-1.2-bin.zip #mv nutch-1.2 /opt/ #cd /opt/nutch-12?
#vim conf/crawl-urlfilter.txt?
# accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
?改为
?
?
# accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*sina.com.cn/?
?
?
#vim conf/nutch-site.xml
?
<configuration> <property> <name>http.agent.name</name> <value>HD nutch agent</value> </property> <property> <name>http.agent.version</name> <value>1.0</value> </property> </configuration>?
?
?
?
#cd bin #mkdir urls?
?
?