日期:2014-05-16  浏览次数:20817 次

[综合]Apache Hadoop 2.2.0概要[翻译]

Apache Hadoop 2.2.0

apache hadoop2.20版本较比以前以前稳定版本(hadoop-1.x)有显著改进

此处简要针对hdfs和MapReduce的改进说明如下:

?

HDFS联盟

为了水平扩展命名服务,联盟采用了多重无依赖的Namenode和Namespace。namenodes是联合在一起的,每个namenode相互独立不需要跟其他的namenode进行通信协调。datanode被namenode用来作为通用的基于block存储。每个datanode在所有的集群namenode中都注册。datanode维持间隔心跳、块信息报告,同时处理namenode传过来的命令。

更多详细请参考?HDFS Federation?

?

MapReduce下一代又称YARN,又称MRv2

新的架构设计在hadoop-0.23中提到过,JobTracker拆分成两大主要单独模块:资源管理和job生命周期管理。

新在资源管理器管理整个应用的计算资源分配,应用主控管理应用的调度和协作。

一个应用指的是MapReduce中的一个单独的job或一组job。

资源管理器和每个节点管理器守护进程,他们管理用户在此节点上的计算。

每个机器上的ApplicationMaster实际上是一个特殊的框架负责跟ResourceManager协商资源同时和NodeManager协调监控任务执行情况。

更多详情请参考YARN?。

?

Getting Started

hadoop文档包括使用hadoop的帮助信息。可以先从单节点启动开始,他会告知你如何构建一个hadoop单机安装模式。后续可以开始集群安装,去了解多节点安装。

?