Apache 首次亚洲在线峰会: Workflow & 数据治理专场
阅读原文时间:2023年07月08日阅读:1

背景

大数据发展到今天已有 10 年时间,早已渗透到各个行业,数据需

求越来越多,这使得大数据

业务间的依赖关系也越来越复杂,另外也相信做数据的伙伴肯定对如何治理数据也是痛苦之至,再加上现今云原生时代的要求,怎么能更好、更容易的处理大数据任务关系及更好的实现数据治理呢?

Apache
 下与之
密切相关的项目有
 
Apache DolphinScheduler,
Apache Atlas, 
Apache Airflow

Apache Oozie,
和 Apache Griffin 
。此外我们也邀请到时下非常火的数据湖框架 Apache Hudi 社区的伙伴来分享《
基于 Apache Hudi 数据湖上的 Dolphin 调度器的实践》,敬请关注

首先给大家介绍下 Apache 基金会年度盛会

ApacheCon

@ 官方全球系列大会

ApacheCon 是 Apache 软件基金会(ASF)的官方全球系列大会,每年举办一次。作为久负盛名的开源盛宴,是开源界最具期待的大会之一。

自 1998 年开办以来,ApacheCon 已经吸引了超过 350 个技术项目和不同社区参与其中,汇聚海内外的业内专家与老师,分享全球最新的技术动态与实践,共同探讨 "明天的技术",让广大的技术爱好者们看到各技术前沿,有哪些最新趋势和进展,更好的升级自己的技术栈。

今年是组委会首次针对亚太地区举办 ApacheCon 在线大会:ApacheCon Asia。Asia 大会将来自中国、日本、印度、美国等海内外的 140+ 议题分为大数据、Incubator、API / Microservice、互联网、集成、开源文化等 14 个论坛。

关于 Workflow/Data Governance工作流和数据治理 论坛

工作流和数据治理将复杂的数据处理进行有序调度及处理,并在元数据、血缘关系和数据质量等方面进行管控。在 ASF 有多种个项目提供了多种数据工作流方案,例如Apache DolphinScheduler,Apache Airflow,Apache Oozie,而 Apache Atlas 和Apache Griffin 提供了多种元数据、数据质量的管理。在工作流和数据治理主题中大家不但会了解到一线用户将这些 Apache 项目应用到具体项目当中的实践经验,而且会了解这些 Apache 项目生态的最新进展,同时也将展望数据调度和数据治理方面的愿景。

出品人

郭炜

Apache Member & Apache DolphinScheduler PMC

8月7-8日议程亮点

@ Apache

WORKFLOW/DATA GOVERNANCE

DolphinScheduler 调度工具在运营商的实践

分享嘉宾王兴杰

时间8月7日 13:30

议题介绍:

我们选择了 DolphinScheduler,一个更容易扩展、拥有良好容错机制、社区活跃度非常高的开源调度系统。我们将介绍在联通的使用 DolphinScheduler 调度解决办法来面对 >10 万级别日常调度任务。

嘉宾介绍:

王兴杰

14 年毕业后开始从事软件研发工作,7 年研发经验,目前主要负责针对联通大数据的调度系统的研发和迁移工作。

海量复杂任务调度利器 -- Apache DolphinScheduler

分享嘉宾:Qiang Guo

时间:8月7日 14:10

议题介绍:

Apache DolphinScheduler 是海量复杂任务稳定调度的场景需求下顺势而生的一款调度工具,本次议题将围绕其稳定性、易用性等多个方面来介绍 DolphinScheduler。同时,我们也会带来 2.0 - 微内核的架构设计,2.0 后,DolphinScheduler 的各个组件将以 SPI 的形式开放出去,用户可以在这个基础上快速实现自己的特性需求。

嘉宾介绍:

Qiang Guo

Apache DolphinScheduler PMC,高级软件工程师,擅长:网络通信、大数据处理和计算

Airflow 深度实践

分享嘉宾:吴琏

时间:8月7日 14:50

议题介绍:

基于 Airflow 平台在上海数禾科技的真实案例,介绍 Airflow 在复杂场景下应用、运维以及定制开发的实践:

复杂场景的挑战:

  1. 跨云分布式部署如何保障高可用;

  2. 多类型调度场景如何有效支撑;

  3. ETL 作业如何保障高可用;

  4. 调度治理如何开展;

  5. 如何做到最大自动化;

同时针对一些业务需求:

  1. 数据分析人员有大量的调度需求,DAG Python 脚本开发上手难度大

  2. 部门或者个人所属的 DAG 并不想被其他部门人员编辑、查看和手动调度?

  3. DAG 中的作业上线审批效率低、工作量大,如何去提高效率去避免一些非规范化的操作?

    消息系统如何触发作业跑批?

分享相应的优化方案:

  1. DAG 配置可视化:界面配置 DAG 参数,后台自动生成 DAG 文件。

  2. DAG 权限控制:分部门分 DAG 赋权,区分读、写、执行。

  3. 作业规范化监控:配置检测规则去监控作业是否符合规则,执行相应的提示。

  4. 事件触发插件:接收 Sensor 作业和 AMQP 等各类消息,触发相应作业执行。

嘉宾介绍:

吴琏

上海 DataSeed 信息技术大数据开发工程师,2年 airflow 使用、维护和开发经验,对 airflow 有深刻理解,希望我的经验和理解能为 airflow 开源社区贡献一份力量。

基于 Apache Hudi 的数据湖上的 Dolphin 调度器的实践

分享嘉宾:Zhao Yuwei

时间:8 月 7 日 15:30

议题介绍:

数据湖是一个企业级的数据管理平台,用于分析不同类型的数据源。数据湖架构确保了多种数据源的整合,并支持多种数据模式,以确保数据的准确性。它可以满足实时分析的需要,也可以作为数据仓库,满足批量数据挖掘的需要。因此,我们需要一个高效、稳定且易于扩展的任务调度系统来协调数据湖的外部能力,如数据摄取、数据存储、数据探索、数据发现、数据治理等。在这里我将分享我们为什么选择 Apache DolphinScheduler 作为任务调度系统,以及我们如何让数据用户轻松地与数据湖互动,而不必关注太多的技术细节

嘉宾介绍:

Zhao Yuwei

从事 Hadoop 相关的开发工作,目前主要工作方向是任务调度系统的研发。

新一代大数据工作流调度平台 -- Apache DolphinScheduler 的架构演变

分享嘉宾:Lidong Dai

时间:8 月 8 日 13:30

议题介绍:

主要包括以下六个部分:

第一,DolphinScheduler的介绍

第二,大数据工作流调度平台的痛点

第三,DolphinScheduler的优势

第四,从1.2版到1.3版的架构演变

第五,架构2.0的路线图 & Roadmap

最后,分享一些用户案例

嘉宾介绍:

LIDONG DAI

Apache DolphinScheduler PMC Chair & Apache Incubator PMC,10+ 年的大数据经验,擅长大型数据平台建设和优化

**基于 Apache DolphinScheduler 的数据质量服务实践
**

分享嘉宾:孙朝和

时间:8 月 8 日 14:10

议题介绍:

此次演讲主要是分享基于 DolphinScheduler 的数据质量服务的设计思路、实现方式以及如何在实际场景中去应用

嘉宾介绍:

孙朝和

在大数据平台开发上具有丰富的经验,热爱并积极参与开源,是 DolphinScheduler 资深代码贡献者

**使用 Airflow 在 Kubernetes 进行数据处理
**

分享嘉宾:栾鹏

时间:8 月 8 日 14:50

议题介绍:

1、为什么我们用 airflow+K8S

2、airflow oa/rbac/web

3、airflow 运行在 docker/docker-compose/k8s上

4、airflow kubernetes-operator

5、airflow k8s pod 插件

6、airlfow 更新友好

7、在腾讯音乐的使用情况

嘉宾介绍:

栾鹏

腾讯音乐数据中心,从事云原生机器学习平台和数据平台相关内容的建设

DolphinScheduler 工作流 DAG 大 JSON 拆分详解及规划

分享嘉宾:lijinyong

时间:8 月 8 日 15:30

议题介绍:

目前 DolphinScheduler 的过程定义使用一个很大的 Json 存储的,这在任务比较大的时候效率不高。我将介绍我们的解决方案来解决这个问题,同时该方案也已经提交到Apache DolphinScheduler,将在近期发布。

嘉宾介绍:

lijinyong

DolphinScheduler 社区活跃贡献者,开源积极分子,现就职于政采云大数据部门,从事大数据平台架构工作,擅长大数据平台及数仓工具的设计与研发,线上 troubleshooting 等

我们在 工作流和数据治理 不见不散 !!!

报名方式

ApacheCon Asia 2021

8月6日-8日

14 个论坛,100+ 技术项目

140+ 场议题演讲

连线对话全球技术大咖与专家

满满3天全天候交流盛会

全程免费参加

ApacheCon 亚洲首场线上虚拟大会

2021年8月6日-8日

期待朋友们的到来

点击原文,即可报名

ApacheCon Asia 2021

https://www.apachecon.com/acasia2021/

点击阅读原文,即可报名,点亮再看,您最好看

手机扫一扫

移动阅读更方便

阿里云服务器
腾讯云服务器
七牛云服务器

你可能感兴趣的文章