2018-12-09 Kafka(1)

Hadoop

hadoop

Hadoop

Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

Kafka应用场景

Messaging

对于一些常规的消息系统，kafka是个不错的选择；partitons/replication和容错，可以使kafka具有良好的扩展性和性能优势。不过到目前为止，我们应该很清楚认识到，kafka并没有提供JMS中的“事务性”“消息传输担保（消息确认机制）”“消息分组”等企业级特性；kafka只能使用作为“常规”的消息系统，在一定程度上，尚未确保消息的发送与接收绝对可靠（比如：消息重发，消息发送丢失等）

Website activity tracking

kafka可以作为“网站活性跟踪”的最佳工具；可以将网页/用户操作等信息发送到kafka中，并实时监控，或者离线统计分析等

Log Aggregation

kafka的特性决定了它非常适合作为“日志收集中心”；application可以将操作日志“批量”“异步”的发送到kafka集群中，而不是保存在本地或者DB中；kafka可以批量提交消息/压缩消息等，这对producer端而言，几乎感觉不到性能的开支。此时consumer端可以使用hadoop等其他系统化的存储和分析系统

Kafka架构

Kafka Architecture