日期:2014-05-16  浏览次数:20906 次

使用Apache Ambari管理Hadoop

随着Hadoop越来越普及,对合适的管理平台的需求成为当前亟待解决的问题。已经有几个商业性的Hadoop管理平台,如Cloudera Enterprise Manager,但Apache Ambari是第一个开源实现。Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等。

Shaun Connolly是Hortonworks公司负责公司战略的副总裁,他在一篇新的博客文章“Apache Amabri: Hadoop Operations, Innovtation, and Enterprise Readiness”中强调,在这一年里,Ambari主要取得了以下成绩:

  • 通过一步一步的安装向导简化了集群供应。
  • 预先配置好关键的运维指标(metrics),可以直接查看Hadoop Core(HDFS和MapReduce)及相关项目(如HBase、Hive和HCatalog)是否健康。
  • 支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。
  • 通过一个完整的RESTful API把监控信息暴露出来,集成了现有的运维工具。
  • 用户界面非常直观,用户可以轻松有效地查看信息并控制集群。

Ambari使用Ganglia收集度量指标,用Nagios支持系统报警,当需要引起管理员的关注时(比如,节点停机或磁盘剩余空间不足等问题),系统将向其发送邮件。

此外,Ambari能够安装安全的(基于Kerberos)Hadoop集群,以此实现了对Hadoop 安全的支持,提供了基于角色的用户认证、授权和审计功能,并为用户管理集成了LDAP和Active Directory。

Apache Ambari当前是6个顶级的开源Hadoop管理工具之一。据Connolly介绍,因为“稳定性和易管理性是Hadoop 企业应用的两个关键需求”,因此Ambari是Hadoop生态系统中的一个重要部分。