Apache Kafka开发入门指南之二-Apache教程-爱易网页

Apache Kafka开发入门指南之二

日期：2014-05-16　浏览次数：21424 次

Apache Kafka开发入门指南之2

作者：chszs，转载需注明。博客主页：http://blog.csdn.net/chszs

Apache Kafka目标是统一离线和在线处理，与Flume和Scribe相比较，Kafka在处理活动流数据方面更具优势。但是从架构的视野来看，Kafka与传统的消息系统（例如ActiveMQ或RabbitMQ）更相似一些。

注：Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS、分布式文件系统等），以便于进行集中统计分析处理。它为日志的“分布式收集、统一处理”提供了一个可扩展的、高容错的方案。当中央存储系统的网络或者机器出现故障时，Scribe会将日志转存到本地或者另一个位置，当中央存储系统恢复后，Scribe会将转存的日志重新传输给中央存储系统。Scribe通常与Hadoop结合使用。Scribe用于向HDFS中push日志，而Hadoop通过MapReduce作业进行定期处理。

注：Flume最早是Cloudera提供的高可用、高可靠、分布式的海量日志采集、聚合和传输的日志收集系统，目前归属于Apache，是Apache基金会下的一个孵化项目。Flume支持在日志系统中定制各类数据的发送方，用于收集数据；同时Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。Flume提供了从Console（控制台）、RPC（Thrift-RPC）、Text（文件）、Tail（UNIX tail）、Syslog（syslog日志系统，支持TCP和UDP等2种模式），Exec（命令执行）等数据源上收集数据的能力。Flume采用了多Master的方式。为了保证配置数据的一致性，Flume引入了ZooKeeper，用于保存配置数据，ZooKeeper本身可保证配置数据的一致性和高可用。另外，在配置数据发生变化时，ZooKeeper可以通知Flume Master节点。Flume Master间使用Gossip协议同步数据。

不少公司使用了Kafka：

1）LinkedIn

http://www.linkedin.com

LinkedIn公司使用Apache Kafka作为活动数据的流化和运营度量。

2）DataSift

http://www.datasift.com

DataSift公司使用Apache Kafka作为监控事件的收集器以及用户消费的实时数据流的跟踪器。

3）Twitter

http://www.twitter.com

Twitter公司使用Apache Kafka作为其Storm平台的一部分。

注：Storm是一个流处理架构。

4）Foursquare

http://www.foursquare.com

Foursquare公司使用Apache Kafka处理在线之间和在线与离线之间的消息传输，把Kafka与Foursquare监控和产品系统以及基于Hadoop的离线基础设施进行集成。

5）Square

http://www.squareup.com

Square公司使用Apache Kafka作为总线，在Square的各个数据中心之间传输所有的系统事件，包括：度量、日志、自定义事件等等。在用户端，它输出到Splunk、Graphite或Esper实时警告。

二、Apache Kafka安装

Kafka是Apache的顶级项目之一，当前的最新版本为0.7.2稳定版，0.8版还是Beta版，但已经获得了很多大型公司的认可。与0.7.2版相比，Kafka 0.8版提供了很多高级特性，如下：

1）在0.8版之前，如果经纪人Broker失效，那么任何Topic内的未消费分区的数据可能会丢失。而0.8版对分区增加了复制因子，这确保了只要有一个复制集有效，那么任何未提交的消息都不会丢失。

2）早先的版本还确保了所有的生产者和消费者都是复制敏感的。默认情况下，生产者的消息发送请求会被阻塞，直到消息提交到所有活动的复制集上才会解除阻塞。但是，生产者还能被配置为提交消息到单个经纪人Broker。

3）与Kafka的生产者一样，Kafka的消费者的投票模型改为长轮询模型且会被阻塞，除非已提交的消息是有效的才会解除阻塞。

4）另外，Kafka 0.8版还配备了一套管理工具，比如集群的受控关机和领导复制选举工具等。

Apache Kafka 0.7.x版不能被0.8版所替代的主要原因是0.8版不能向后兼容。

如果要把现有的基于Kafka 0.7.x版的集群迁移到基于0.8版的Kafka集群上，Apache Kafka提供了迁移工具。迁移工具实际上担当了基于Kafka 0.7.x版的集群的消费者的角色，并在基于0.8版的Kafka集群上担当了生产者重发布消息的角色。

下面的视图说明了整个迁移：

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

Apache Kafka开发入门指南之二

Apache Kafka开发入门指南之2

相关资料更多>

推荐阅读更多>