DataTester的数据集成系统,可大幅降低企业接入A/B实验平台门槛。
当企业想要接入一套A/B实验平台的时候,常常会遇到这样的问题:
……
A/B实验准备的全流程如图下所示。当企业在已有埋点的情况下,如果想0-1开启A/B实验,通常要占用大量人力来做数据处理。需要梳理埋点列表、确定id映射关系、确定埋点数据类型、确定导入时间范围、修改业务处理逻辑、代码编写、测试环境调试……
当经历完多次调试验证后,数据接入完成,工作却远未结束,伴随而来的是数据对齐校验、后期任务运维等。这些繁琐的工作,使企业“开启A/B实验”的门槛极高,也会带来诸多数据差异的隐患。为解决企业开启A/B实验成本过高的问题,火山引擎A/B测试平台(DataTester)专门研发了数据集成能力。本文将对DataTester的数据集成平台做技术解读。
DataTester是由火山引擎推出的A/B测试与智能优化平台,它脱胎于字节跳动长期沉淀,历经字节内部超150万次实验打磨,为企业的增长、转化、产品迭代,策略优化,运营提效等各环节提供科学的决策依据。DataTester的数据集成能力,可以真正解决多源数据集成、数据清洗和数据预处理问题,提高企业的A/B测试效率和准确性,从而为企业开实验提供有力的支持。
上图是使用DataTester数据集成平台最基础的配置流程,可以看到,用户只需要在页面上登记数据源信息、映射逻辑、任务调度配置,就可以快速的同步多源数据,完成数据配置和接入。
火山引擎DataTester的数据集成,主要提供了帮助企业导入第三方数据到A/B系统的能力,它可以解决企业在数据接入过程中的如下痛点:
在以往,企业如果希望接入新的A/B测试平台,在第一步的数据集成阶段通常只有通过SQL开发或业务代码编写的方式接入。
DataTester数据集成平台提供了可视化的任务配置能力,用户可以通过点击、拖拽等形式完成数据接入;数据集成平台将自动完成数据类型转化、数据清洗等功能。这种“一键式”的数据导入可以最大程度减轻企业在数据集成阶段的时间人力成本。
用户通过可视化的方式来监控、管理和维护数据任务的运行状态和运行情况。这样的方式可以更加便捷地了解任务状态和运行情况,及时发现并解决问题。
DataTester数据集成支持行为数据、用户属性等历史数据回溯、实时数据同步的能力,并预置了多款数据配置模板,可以一键同步异构数据源数据。
提供丰富的内嵌插件,支持常用的数据处理逻辑。例如:数字四则运算、字符串处理、字段映射等等。除此之外,DataTester数据集成也提供自定义函数的能力,企业可以在平台根据实际业务逻辑定义UDF,并集成在数据导入任务中。
下图为火山引擎DataTester数据集成平台的整体架构,功能上,DataTester数据集成系统采用三层架构,包括web层、Service层和数据处理服务。
系统架构上考虑了高可用、高扩展和高性能的设计。
DataTester数据集成基于Apache SeaTunnel二次开发,数据传输任务采用Framework + plugin架构构建。将数据源读取和写入抽象成为Connect(Source/Sink)插件,纳入到整个数据同步框架中。
Transform是DataTester数据集成的业务处理关键内容。我们内置多个默认插件,自动帮助用户完成用户分析口径映射、事件格式转换、数值处理、字段映射等等逻辑,同时也提供入口供用户增加插件,内嵌至自有任务中。
DataTester数据集成平台采用了InfluxDB来运行数据监控。InfluxDB 是一款专门处理高写入和查询负载的时序数据库,用于存储大规模的时序数据并进行实时分析。在每个监控任务提交后,DataTester将会在数据处理过程中增加成功、失败的数据埋点,并最终落入InfluxDB对外展示。
在企业的常用应用场景中,数据集成监控报警主要起到以下几个作用:
某金融公司计划使用火山引擎DataTester开启信用卡分期优惠A/B实验,预期赶在大促前上线该实验并拿到反馈;而面对的问题是:1. 现有埋点体系复杂,有大量无效埋点和复杂埋点判断 2. 重复埋点成本很高,依赖客户端行为事件和服务端事件 3. 时间节点比较紧张,必须赶在大促前拿到实验反馈;因此进行实验非常具有挑战。
针对如上背景,他们使用了DataTester数据集成平台来解决以上问题。他们在数据集成平台注册已有数据源信息,配置数据字段映射逻辑,将客户端和服务端所有事件数据进行自动捕捉和同步,从而使实验无需成本地进行重复埋点;另一方面,通过数据集成的插件能力,企业可以完成简单的数据清洗和字段加工,从而可以解决已有的埋点问题。
通过这些解决方案的帮助下,该金融公司成功地完成了实验,并获得了重要的反馈和优化建议。此外,DataTester也在数据集成、数据同步、数据安全等方面为企业提供了全方位的支持,确保企业项目能够成功落地,并为其带来重要价值。
DataTester的“可视化数据集成”及“集成工作台”方案,可以帮助企业将来自三方的数据导入到A/B系统中,无需额外通过传统SQL开发或者业务代码编写等方式来进行数据集成,可以实现对历史数据资产直接复用,极大程度降低系统重复建设成本。据了解,目前可视化数据集成功能在企业数据接入方面能带来高达8倍的提效。
火山引擎DataTester一直致力于为企业提供业界最易用、最科学和最高效的A/B实验平台。为了提高产品在数据集成的能力和服务水平,产品未来将在以下几个方面不断演进和完善:
手机扫一扫
移动阅读更方便
你可能感兴趣的文章