Apache Hadoop 容易配置及实践-Apache教程-爱易网页

Apache Hadoop?是一个分布式计算基础框架，通过它可以使用N台计算机同时处理某个复杂的计算任务。用户（应用程序）只需要定义如何将一项计算任务拆分（Map）以及如何将各个分任务的结果合并（Reduce），剩下的事情比如如何协调N台计算机一起工作，如何保证即使某一台计算机中途坏掉了也不会影响整项任务的工作等，都由 Hadoop 代劳。Hadoop 同时还可以扩展为分布式储存（HDFS）、分布式NoSQL数据库（HBase）等等。本文将简单介绍基本的 Hadoop 系统的搭建方法。

Hadoop 在运行时由5个程序组成：

1个NameNode，用于管理命名空间以及客户端对文件的访问；
1个JobTracker，用于调度工作以及分配任务（Task）；
1个SecondaryNameNode，用于辅助NameNode的工作；
1～N个DataNode 用于数据储存；
1～N个TaskTracker 用于执行任务，DataNode 和 TaskTracker 总是成对出现在同一台计算机里运行。

前3个程序一般是分别在三台不同的计算机里运行，为了简单起见下面的例子将在同一台计算机里运行这3个程序，然后再另外找3台计算机运行DataNode（连同TaskTracker），所以这个示例一共需要4台计算机。结构图如下：

下面是详细的搭建过程

1、下载 Apache Hadoop
因为分布式储存是分布式计算的基础，所以我们必须下载 HDFS 。到这里下载?HDFS，这里使用的版本是 0.20.2，下载回来的一个压缩包已经包含了上面提到的5个程序。

2、配置 Hadoop
虽然在一个典型的 Hadoop 系统里会有 4种不同角色的计算机，不过我们为了简单起见可以先在某一台计算机编辑好配置文件，然后再分发到其他计算机，这样可以避免一台台地配置浪费时间。

a、编辑 conf/hadoop-env.sh，设置正确的 JAVA_HOME 环境变量，比如
export JAVA_HOME=/usr/lib/jvm （CentOS + OpenJDK）

PS：某些 Hadoop 版本在配置了 IPv6 的计算机上会监听错网络地址，所以需要增加如下一行以屏蔽 java 的 IPv6 功能：
export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true

b、编辑 conf/core-site.xml

<configuration>

                    
                    
                        
                            上一篇：.htaccess技巧: URL重写(Rewrite)与重定向(Redirect)

                            下一篇： Apache 调整 jetty 
                        
                    


                    
                        免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
                    

                    


    
        相关资料更多>
    
    
        

            
                  
                      
                         施行insert语句时候报错java.lang.ClassCastException 
                   
                
                  
                      
                         tomcat6.0.20配置admin有关问题 
                   
                
                  
                      
                         [转]Apache的配置文件http.conf参数含意详解 
                   
                
                  
                      
                         用apache跟tomcat搭建集群,实现负载均衡 
                   
                
                  
                      
                         遇到了个奇怪有关问题 
                   
                
                  
                      
                         新建maven 模块项目时，出错，删了lastupdate文件还是不行，求指点 
                   
                
                  
                      
                         apache上二级域名实现的精简配置 
                   
                
                  
                      
                         请问大神们个有关问题 
                   
                
                  
                      
                         apache 2.2 + php 5.3 配备 
                   
                
        
    



                

                
                    
                    

                    
                    
                    
                    

      
        推荐阅读更多>
      
      
          
        
                       
                             Apache CXF文件目录构造及需要jar包 
                    
                       
                             【Apache ZooKeeper】了解ZooKeeper中的ZNodes 
                    
                       
                             通译：Apache MINA User Guide】Chapter 2 - Basics 之客户端应用程序 
                    
                       
                             hive错误 show tables 无法使用  : Unable to instantiate rg.apache.hadoop.hive.metastore.HiveMetaStoreClient 
                    
                       
                             Myeclipse中配置Axis2解决方案 
                    
                       
                             求启动(停止)tomcat6的java代码解决方案 
                    
                       
                             Apache 运行时，删除了 accesslog 文件，日志即不再输出，该有关问题怎么解决 
                    
                       
                             数据采集服务器有什么现成架构吗？解决方法 
                    
                       
                             关于Apache Common Daemon 看护进程 
                    
                       
                             应用org.apache.commons.net.ftp包开发FTP客户端 
                    
                       
                             花生殼二級域名之使用解决方法 
                    
                       
                             Apache+Tomcat调整新方法 
                    
                       
                             apache登记为window服务 
                    
                       
                             Apache Tomcat 上载网站惊现校内（xiaonei）镜像 
                    
                       
                             apache 反向署理 
                    
                       
                             让Apache CXF 支持传送java.sql.Timestamp和java.util.HashMap类型 
                    
                       
                             php以模块模式安装时apache系统安全知识汇总 
                    
                       
                             apache的Client denied by server configuration异常处理 
                    
                       
                             apache+tomcat配备负载平衡 
                    
                       
                             【转】在Apache中利用ServerAlias设立虚拟主机接收多个域名和设置域名泛解析 
                    
            
      


                
            
            

            
    
友情链接：
    
      爱易网             
    
      云虚拟主机技术             
    
      云服务器技术             
    
      程序设计技术             
    
      开发网站             
    
      APP开发教程             
    





 

Copyright © 2013-2026 爱易网页 当前在线：550人　
        网站在20时19分38秒内访问总人数：158654人
    2秒前 8.94%
　粤ICP备18100884号-2