Linux单机运作hadoop平台-Linux-爱易网页

Linux单机运作hadoop平台

日期：2014-05-16　浏览次数：21093 次

Linux单机运行hadoop平台

Hadoop-0.19.2的代码可以到Apache上下载,使用的Linux机器是RHEL 5，Linux上安装的Java版本为1.6.0_16，并且JAVA_HOME=/usr/java/jdk1.6.0_16
实践过程

1、ssh无密码验证登陆localhost
保证Linux系统的ssh服务已经启动，并保证能够通过无密码验证登陆本机Linux系统。如果不能保证，可以按照如下的步骤去做：

（1）启动命令行窗口，执行命令行：
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
（2）ssh登陆localhost，执行命令行：
$ ssh localhost
第一次登录，会提示你无法建立到127.0.0.1的连接，是否要建立，输入yes即可，下面是能够通过无密码验证登陆的信息：
[root@localhost hadoop-0.19.2]# ssh localhost
Last login: Sun Aug? 1 18:35:37 2010 from 192.168.0.104
[root@localhost ~]#

2、Hadoop-0.19.0配置
下载hadoop-0.19.0.tar.gz，大约是40.3M，解压缩到Linux系统指定目录，www.linuxidc.com这里我的是/root/hadoop-0.19.2目录下。
下面按照有序的步骤来说明配置过程：
（1）修改hadoop-env.sh配置
将Java环境的配置进行修改后，并取消注释“#”，修改后的行为：
export JAVA_HOME=/usr/java/jdk1.6.0_16
（2）修改hadoop-site.xml配置
在<configuration>与</configuration>加上3个属性的配置，修改后的配置文件内容为：
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
? <property>
??? <name>fs.default.name</name>
??? <value>hdfs://localhost:9000</value>
? </property>
? <property>
??? <name>mapred.job.tracker</name>
??? <value>localhost:9001</value>
? </property>
? <property>
??? <name>dfs.replication</name>
??? <value>1</value>
? </property>
</configuration>

3运行wordcount实例
wordcount例子是hadoop发行包中自带的实例，通过运行实例可以感受并尝试理解hadoop在执行MapReduce任务时的执行过程。按照官方的“Hadoop Quick Start”教程基本可以容易地实现，下面简单说一下我的练习过程。
导航到hadoop目录下面，我的是/root/hadoop-0.19.0。
（1）格式化HDFS
执行格式化HDFS的命令行：
[root@localhost hadoop-0.19.2]# bin/hadoop namenode -format
格式化执行信息如下所示：
10/08/01 19:04:02 INFO namenode.NameNode: STARTUP_MSG:

Re-format filesystem in /tmp/hadoop-root/dfs/name ? (Y or N) y
Format aborted in /tmp/hadoop-root/dfs/name
10/08/01 19:04:05 INFO namenode.NameNode: SHUTDOWN_MSG:

（2）启动Hadoop相关后台进程
执行命令行：
[root@localhost hadoop-0.19.2]# bin/start-all.sh
启动执行信息如下所示：
starting namenode, logging to /root/hadoop-0.19.0/bin/../logs/hadoop-root-namenode-localhost.out
localhost: starting datanode, logging to /root/hadoop-0.19.0/bin/../logs/hadoop-root-datanode-localhost.out
localhost: starting secondarynamenode, logging to /root/hadoop-0.19.0/bin/../logs/hadoop-root-secondarynamenode-localhost.out
starting jobtracker, logging to /root/hadoop-0.19.0/bin/../logs/hadoop-root-jobtracker-localhost.out
localhost: starting tasktracker, logging to /root/hadoop-0.19.0/bin/../logs/hadoop-root-tasktracker-localhost.out
（3）准备执行wordcount任务的数据
首先，这里在本地创建了一个数据目录input，并拷贝一些文件到该目录下面，如下所示：
[root@localhost hadoop-0.19.2]# mkdir input
[root@localhost hadoop-0.19.2]# cp CHANGES.txt LICENSE.txt NOTICE.txt README.txt input/
然后，将本地目录input上传到HDFS文件系统上，执行如下命令：
[root@localhost hadoop-0.19.2]# bin/hadoop fs -put input/ input
（4）启动wordcount任务
执行如下命令行：
[root@localhost hadoop-0.19.2]# bin/hadoop jar hadoop-0.19.2-examples.jar wordcount input output
元数据目录为input，输出数据目录为output。
任务执行信息如下所示：
10/08/01 19:06:15 INFO mapred.FileInputFormat: Total input paths to process : 4
10/08/01 19:06:15 INFO mapred.JobClient: Running job: job_201008011904_0002
10/08/01 19:06:16 INFO mapred.JobClient:? map 0% reduce 0%
10/08/01 19:06:22 INFO mapred.JobClient:? map 20% reduce 0%
10/08/01 19:06:24 INFO mapred.JobClient:? map 40% reduce 0%
10/08/01 19:06:25 INFO mapred.JobClient:? map 60% reduce 0%
10/08/01 19:06:27 INFO mapred.JobClient:? map 80% reduce 0%
10/08/01 19:06:28 INFO mapred.JobClient:? map 100% reduce 0%
10/08/01 19:06:38 INFO mapred.JobClient:? map 100% reduce 26%
10/

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

Linux单机运作hadoop平台

相关资料更多>

推荐阅读更多>