日志服务SLS是一款飞天团队自研产品,服务云上云下3W+客户,并在阿里经济体中作为日志数据的基础设施,在过去几年中经历多次双十一、双十二、新春红包锤炼。
在2019双十一中:
能够服务这个体量和用户规模,对产品的功能、体验、系统的稳定性和可靠性的要求是很高的。感谢阿里经济体独一无二的环境与挑战,使得我们过去五年中持续不断地对产品与技术进行考验与磨炼。
数据管道是什么?
数据管道概念诞生在2009年,提出的是LinkedIn工程师Jay Krep,Jay也是Apache Kafka作者+Confluent公司CEO。2012年他在文章《The Log: What every software engineer should know about real-time data's unifying abstraction》中提到设计管道设施的两个初衷:
这两个核心痛点的解决+实时系统的兴起使得Kafka类产品在几年间有了一个量的飞跃,成了脍炙人口的基础软件。随着数据分析系统成为企业标配,各大厂商也逐步将数据管道产品化成服务互联网的服务,比较有代表性的有:
数据管道(Data Pipeline)是实现系统之间数据迁移的载体,因此包括数据的采集、传输链路、存储队列、消费/转储等都属于数据管道的范畴。在SLS这里,我们专为数据管道相关的功能集合起了一个单独的名称:LogHub,LogHub提供数30+种数据接入方式、提供实时数据管道、对接各类下游系统等功能。
然而数据管道因足够底层,在企业数字化过程中担任重要的业务,必须足够可靠、足够稳定、确保数据的通畅,并且能够弹性满足流量变化需求。我们把过去5年来我们遇到的挑战展开,和大家回顾下。
管道这个概念非常简单,以至于每个开发者都能用20行代码写一个原型出来:
但在现实过程中,维护一个每天读写百亿次,几十PB数据流量,并且被万级用户依赖的管道是一件很有挑战的事情,举几个例子:
这样例子每天都在发生,如何把简单的管道做得不简单,需要大量的工作,在下面篇幅中我们娓娓道来。
SLS 第一版本支持一类数据源-- 飞天格式的日志文件,在五年中逐步扩展到各语言SDK,移动端,嵌入式芯片,物联网和云原生等环境:
SLS起源与阿里云的飞天项目,当时我们飞天有一个基础的日志模块,几乎所有的系统都会使用这个模块打印日志,所以最开始我们开发了Logtail用于采集飞天日志,当时的Logtail还只是一个阿里云飞天系统内部使用的工具。
随着非阿里云团队使用,所以我们扩展了Logtail,支持通用的日志格式,比如正则、Json、分隔符等等。同时还有很多应用不希望落盘,因此我们提供了各种语言的SDK用于日志上传的代码集成。
随着移动互联网兴起,我们专门针对移动端开发了Android、IOS的SDK,便于用户快速接入日志;这个时间点阿里也开始了微服务改造、pouch开始上线,Logtail开始兼容pouch,同时我们还专门为Java微服务提供Log4J、LogBack的Appender,提供数据直传的服务。
对ARM平台、嵌入式系统、国产化系统也定制适配客户端进行接入。
在2018年初,为了应对多样化的需求,我们为Logtail增加了插件功能,有自定义需求的用户可以通过开发插件的方式扩展Logtail,实现各种丰富的功能;同时我们也紧跟时代步伐,支持云原生、智能设备、IoT等新兴领域的数据采集
随着云原生落地,Logtail的数据采集在18年初就开始全面支持Kubernetes,并提供了CRD(CustomResourceDefinition)用于日志和Kubernetes系统的集成,目前这套方案已经应用在了集团内、公有云几千个集群中。
在阿里高度虚拟化的场景中,一台物理机可能运行上百个容器,传统的日志落盘采集方式对物理机磁盘的竞争很大,会影响日志写入性能,间接影响应用的RT;同时每天物理机需要为各个容器准备日志的磁盘空间,造成巨大的资源冗余。
因此我们和蚂蚁系统部合作开展了日志无盘化项目,基于用户态文件系统,为应用虚拟出一个日志盘,而日志盘的背后直接通过用户态文件系统对接Logtail并直传到SLS,以最快的方式实现日志可看、可查。
SLS服务端支持HTTP协议写入,也提供了众多SDK和Agent,但在很多场景下还是和数据源间有巨大鸿沟,例如:
为此SLS开展了通用协议适配计划,除HTTP外还兼容Syslog,Kafka、Promethous和JDBC四种协议来兼容开源生态。用户现有系统只需要修改写入源即可实现快速接入;已有的路由器、交换机等可以直接配置写入,无需代理转发;支持众多开源采集组件,例如Logstash、Fluentd、Telegraf等。
在2017年前后,我们遇到了另外一个挑战:单机Agent的多租户流控,举一个例子:
我们对Agent(Logtail)进行了一系列多租户隔离优化:
该功能上线后,经过不断调优,较好解决了单机上多个数据源(租户)公平分配的问题。
除了客户端流控外,我们在服务端也支持两种不同的流控方式(Project级、Shard级反压),防止单实例异常在接入层、或后端服务层影响其他租户。我们专门开发QuotaServer模块,提供了Project全局流控和Shard级流控两层流控机制,在百万级的规模下也能实现秒级的流控同步,保证租户之间的隔离性以及防止流量穿透导致集群不可用。
Project全局流控最主要的目的是限制用户整体资源用量,在前端就拒绝掉请求,防止用户实例的流量穿透后端把整个集群打爆。真正做到流控更加精细、语义更加明确、可控性更强的是Shard级别流控。
通过shard级别流控,好处非常明显:
解决日志消费问题还是需要从应用场景出发,SLS作为实时管道,绝大部分消费场景都是实时消费,SLS针对消费场景提供了一层Cache,但Cache策略单一,随着消费客户端增多、数据量膨胀等问题而导致命中率越来越低,消费延迟越来越高。后来我们重新设计了缓存模块:
上述优化上线后,集群日志平均消费延迟从5ms降低到了1ms以内,有效缓解双十一数据消费压力。
在以微服务、云原生为主导的大背景下,应用被切分的越来越细、整个链路也越来越复杂,其中产生的日志种类和数量也越来越多;同时日志的重要性也越来越强,同一个日志可能会有好几个甚至数十个业务方需要消费。
传统的方式粗暴简单,需要日志的人自己去机器上采集,最终一份日志可能被重复采集几十遍,严重浪费客户端、网络、服务端的资源。
SLS从源头上禁止同一文件的重复采集,日志统一采集到SLS后,我们为用户提供ConsumerGroup用于实时消费。但伴随着日志的细分化以及日志应用场景的丰富化,SLS的数据消费逐渐暴露出了两个问题:
针对日志细分场景下的资源映射和权限归属管理等问题,我们和蚂蚁日志平台团队合作开发了View消费模式(思路来源于数据库中View),能够将不同用户、不同logstore的资源虚拟成一个大的logstore,用户只需要消费虚拟的logstore即可,虚拟logstore的实现以及维护对用户完全透明。该项目已经在蚂蚁集群正式上线,目前已经有数千个View消费实例在工作中。
针对单消费者能力不足的问题,我们对ConsumerGroup进一步增强,开发了Fanout消费模式,在Fanout模式下,一个Shard中的数据可交由多个消费者处理,将Shard与消费者解耦,彻底解生产者消费者能力不匹配的问题。同时消费端无需关心Checkpoint管理、Failover等细节,Fanout消费组内部全部接管。
SLS对外SLA承诺99.9%服务可用性(实际99.95%+),刚开始的时候我们很难达到这样的指标,每天收到很多告警,经常夜里被电话Call醒,疲于处理各种问题。总结下来主要的原因有2点:
针对热点问题,我们在系统中增加了调度角色,通过实时数据收集和统计后,自动做出调整,来消除系统中存在的热点,主要有以下两个手段:
自动负载均衡
自动分裂
实际场景下有很多情况需要特殊考虑,例如颠簸情况、异构机型、并发调度、迁移的负面影响等,这里就不再展开。
目前SLS线上收集了数千种实时指标,每天的访问日志有上千亿,出现问题时纯粹手工调查难度非常大。为此我们专门开发了根因分析相关算法,通过频繁集和差异集的方式,快速定位和异常最相关的数据集合。
如样例中,将出现错误(status >= 500)的访问数据集,定义为异常集合A,在这个集合发现90%的请求,都是由ID=1002引起,所以值得怀疑,当前的错误和ID=1002有关,同时为了减少误判,再从正常的数据集合B(status <500)中,查看ID=1002的比例,发现在集合B中的该ID比例较低,所以更加强系统判断,当前异常和这个ID=1002有非常高的相关性。
借助此种方法大大缩短了我们问题调查的时间,在报警时我们会自动带上根因分析结果,很多时候收到告警时就已经能够定位具体是哪个用户、哪台机器还是哪个模块引发的问题。
为了便于水平扩展我们引入了Shard的概念(类似Kafka Partition),用户可以通过分裂Shard、合并Shard来实现资源的伸缩,但这些概念也会为用户带来很多使用上的困扰,用户需要去了解Shard的概念、需要去预估流量分配Shard数、有些时候因为Quota限制还需要手动分裂…
优秀的产品应该对用户暴露尽可能少的概念,未来我们会弱化甚至去除Shard概念,对于用户而言,SLS的数据管道只需要声明一定的Quota,我们就会按照对应的Quota服务,内部的分片逻辑对用户彻底透明,做到管道能力真正弹性。
和Kafka一样,SLS目前支持At Least Once写入和消费方式,但很多核心场景(交易、结算、对账、核心事件等)必须要求Exactly Once,现在很多业务只能通过在上层包装一层去重逻辑来Work around,但实现代价以及资源消耗巨大。
马上我们会支持写入和消费的Exactly Once语义,且Exactly Once语义场景下也将支持超大流量和高并发。
和Kafka类似,SLS支持的消费是Logstore级别的全量消费方式,如果业务只需要其中的一部分数据,也必须将这段时间的所有数据全量消费才能得到。所有的数据都要从服务端传输到计算节点再进行处理,这种方式对于资源的浪费极其巨大。
因此未来我们会支持计算下推到队列内部,可以直接在队列内进行无效数据过滤,大大降低无效的网络传输和上层计算代价。
本文作者:元乙
本文为阿里云内容,未经允许不得转载。
手机扫一扫
移动阅读更方便
你可能感兴趣的文章