2021年10月20日,Tapdata 创始人唐建法(TJ)受邀出席 DTCC 2021(中国数据库技术大会),并在企业数据中台设计与实践专场上,发表主旨演讲“Real Time DaaS :打造面向 TP+AP 业务的数据平台架构”,从 AP 业务场景 vs. TP 业务场景、常见数据平台优劣势、如何打造面向 TP+AP 业务的数据平台等角度,全面分享了 Tapdata 在全链路实时数据融合平台的独特技术优势和最佳实践案例,整场分享干货满满、广受好评。
从20年前的传统数仓,到10年前大数据平台,5年前开始火热的数据中台以及最近出现的湖仓一体新数据平台,企业对这些 AP 业务场景的数据产品及架构有着太多的选择,但是实际上,企业在 TP 类型业务上的投入和 AP 相比是9:1,为什么没有面向 TP 业务的数据平台呢?
唐建法指出,之所以 TP 业务数据平台还不多见,是因为数据孤岛问题不严重的时候,TP 只需要一个RDBMS 就可以解决,同时由于 Technical Difficulty,缺乏合适的工具和技术架构,TP 业务数据平台难以推广。
TP vs. AP 不难发现,他们有着较大的差异和特点。从业务场景来看 OLTP 如常见的:在小程序上一套新的CRM、租房子(房屋租赁平台)等,与之对应的 OLAP 场景就是:用户行为洞察(用户对哪些产品关注比较多,哪些产品比较赚钱)、租房客户推荐( 根据客户行为打上标签,并推荐相应的房源) ,其中 OLTP 切中的是企业核心运营价值链。
从技术维度来看,OLTP 要求毫秒级的数据响应速度,数百 ~ 数十万的并发查询量,而 OLAP 通常可接受数秒到分钟级的数据响应速度和数个到数十个的并发查询。在存储方案上,OLTP 常用Oracle,MySQL,SQLServer,PostgreSQL,DB2,MongoDB,Elastic,Redis 等,而 OLAP 常用Teradata,Greenplum,Hadoop等。
既然 TP 业务场景价值更高,且需求非常明确,那么如何打造一个面向 TP 业务的数据平台架构?类似与IaaS,PaaS或者SaaS,Tapdata 给出的方案是提供一个 DaaS (Data as a Service): 将企业各个业务系统的数据汇总到一个中央化平台,经过低代码方式治理以后,形成可复用的企业数据资产,通过无代码数据接口方式提供给业务使用方。
唐建法结合 Tapdata 在全链路实时数据平台方面的实践,重点解析了 Tapdata Real Time DaaS 架构的特点和创新点:一个“实时同步+实时处理+实时服务”三位一体的全链路实时数据处理及服务平台。
DaaS 架构之一:实时数据采集同步。Tapdata 的第一步就是将批量、滞后的 ETL 换成了 CDC 方式,基于数据库 Write Ahead Log 日志同步监听的方式来进行在不同系统之间的数据复制,它的优势在于:对源库性能影响小;资源消耗少;从事务在源端提交开始到更新写入同步的目标库,延迟可以小于1秒,能够满足对实时性要求较高的业务场景;
DaaS 架构之二:基于Pipeline的流式数据处理建模。当我们把需要的数据从源库里面无侵入、准实时地抽取了出来之后,可能还需要:对来自多个库的数据进行合并;对表结构进行重构,组成新的模型;构建业务宽表等。基于 Tapdata 实时流数据处理技术,可以实现事件触发、毫秒级数据更新、不间断持续运行,从而满足 TP 业务和实时分析等场景需求。
DaaS 架构之三:基于分布式数据库 MongoDB 或 TiDB 的中间库存储。相比 AP 数据平台常用的 Hadoop 大数据存储方案, 比较成熟的分布式数据库(MongoDB 或 TiDB)更适合作为 DaaS 的存储方案。主要原因是 DaaS 的很大一部分能力需要直接对接业务系统,高并发,毫秒级响应是必备的能力。这种能力只有基于索引机制的分布式数据库才可以做到。MongoDB 的模型变动灵活,非常适合多源快速融合,无需复杂关系建模。而 TiDB 的 HTAP 则能不错的支撑一些常见的分析业务。
此外,Tapdata Real Time DaaS 还具备易集成、易拓展、低代码、可视化等优势,相比自建实时数据平台不仅落地实施快、排错难度低,还可以大幅降低学习成本。
最后,TJ 对 Tapdata Real Time DaaS 的主要技术场景和业务场景做了总结梳理:
如果你是一个应用架构师或者数据架构师,DaaS架构可以在以下几方面作为选型参考:
如果你更关注 DaaS 可以创造什么样的业务价值,以下是几个比较常见的场景 DaaS 架构会为企业实现这些业务提供显著的降本增效的能力:
在分享结束后提问环节,TJ 回答了的一个常见的用户问题:Tapdata 可以用来做数据打通,形成一个可复用的实时数据平台,但是我们往往首要的业务诉求往往是做一些统计分析,大屏展示和运营指标。这样的话是否合适使用 Tapdata 呢?TJ 解释到,这些偏向于运营指标和聚合类计算的属于相对简单的分析场景,是完全可以在 DaaS 平台里完成。作为存储的 MongoDB 自带丰富的聚合框架计算能力,Tapdata 的流式计算也提供聚合框架,基本上可以以流式预聚合 + 数据库聚合计算两种技术能力支撑上述的数据场景。 相较于大数据平台,Tapdata的方案能够提供更加准确,更加即时的数据指标和实时分析结果。
获取完整演讲 PPT 内容,请点击:http://tapdata-user.mikecrm.com/Z1V3zoT,了解更多 Tapdata Real Time DaaS 相关干货内容请关注 Tapdata 技术博客:https://tapdata.net/blog.html,免费试用请点击:http://tapdata-user.mikecrm.com/IpE21eG。
原文地址:https://tapdata.net/DTCC-speech-on-Real-Time-DaaS.html?fromColId=2
手机扫一扫
移动阅读更方便
你可能感兴趣的文章