Flume 是什么
Apache Flume是一个高可靠、高可用的分布式的海量日志收集、聚合、传输系统。它可以从不同的日志源采集数据并集中存储。
Flume也算是Hadoop生态系统的一部分,源于Cloudera,目前是Apache基金会的顶级项目之一。Flume有两条产品线,0.9.x版本和1.x版本。
核心概念
**核心概念:Event
**
Event是Flume数据传输的基本单元。flume以事件的形式将数据从源头传送到最终的目的。Event由可选的hearders和载有数据的一个byte array构成。
载有的数据对flume是不透明的
Headers是容纳了key-value字符串对的无序集合,key在集合内是唯一的。
Headers可以在上下文路由中使用扩展
public interface Event {
public Map
public void setHeaders(Map
public byte[] getBody();
public void setBody(byte[] body);
}
public interface Event {
public Map
public void setHeaders(Map
public byte[] getBody();
public void setBody(byte[] body);
}
核心概念:Client
Clinet是一个将原始log包装成events并且发送它们到一个或多个agent的实体。
例如目的是从数据源系统中解耦Flume
在flume的拓扑结构中不是必须的
核心概念:Agent
一个Agent包含Sources, Channels, Sinks和其他组件,它利用这些组件将events从一个节点传输到另一个节点或最终目的。
**核心概念:Source
**
Source负责接收events或通过特殊机制产生events,并将events批量的放到一个或多个Channels。有event驱动和轮询2种类型的Source
不同类型的Source:Source必须至少和一个channel关联
核心概念:Channel
Channel位于Source和Sink之间,用于缓存进来的events,当Sink成功的将events发送到下一跳的channel或最终目的,events从Channel移除。
不同的Channels提供的持久化水平也是不一样的:Channels支持事务
提供较弱的顺序保证
可以和任何数量的Source和Sink工作
**核心概念:Sink
**
Sink负责将events传输到下一跳或最终目的,成功完成后将events从channel移除。
不同类型的Sinks:必须作用与一个确切的channel
Flow可靠性
可靠性基于:
可用性:
核心概念:Interceptor
用于Source的一组Interceptor,按照预设的顺序在必要地方装饰和过滤events。
核心概念:Channel Selector
Channel Selector允许Source基于预设的标准,从所有Channel中,选择一个或多个Channel
内建的Channel Selectors:
核心概念:Sink Processor
多个Sink可以构成一个Sink Group。一个Sink Processor负责从一个指定的Sink Group中激活一个Sink。Sink Processor可以通过组中所有Sink实现负载均衡;也可以在一个Sink失败时转移到另一个。
Flume通过Sink Processor实现负载均衡(Load Balancing)和故障转移(failover)
内建的Sink Processors:所有的Sink都是采取轮询(polling)的方式从Channel上获取events。这个动作是通过Sink Runner激活的
Sink Processor充当Sink的一个代理
总结
手机扫一扫
移动阅读更方便
你可能感兴趣的文章