大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识。今天给大家分享一体化的元数据管理平台——OpenMetadata。
本文档基于官网及个人实践资料整理。后续的文档请关注公众号 大数据流动,会持续的更新~
本文分四个部分,分别从开源元数据管理平台,OpenMetadata简介,安装过程和功能演示四个方面来进行。
元数据管理是企业全面开展数据治理的起点。各种元数据管理工具,元数据管理平台也层出不穷。
开源的元数据管理平台很多。开源元数据管理平台是一种用于收集、存储和管理数据的工具,它们提供了一种可扩展的方式来组织和维护数据的元数据信息。以下是一些常见的开源元数据管理平台:
这些开源元数据管理平台都提供了各种功能,如元数据存储、搜索、浏览、数据资产关系管理、数据血统跟踪等,帮助组织更好地管理和利用数据的元数据信息。
而今天我们要介绍的OpenMetadata,希望提供一种元数据的管理标准,来让我们更好的管理元数据。
OpenMetadata是一个用于数据发现、数据沿袭、数据质量、可观察性、治理和团队协作的一体化平台。它是发展最快的开源项目之一,拥有充满活力的社区,并被各行业垂直领域的众多公司采用。OpenMetadata 由基于开放元数据标准/API 的集中式元数据存储提供支持,支持各种数据服务的连接器,可实现端到端元数据管理,让您可以自由地释放数据资产的价值。
目前OpenMetadata在Github标星2.5k,并刚刚更新了1.1版本。
考虑部分同学网络问题,可在大数据流动后台回复“OpenMetadata1.1”进行源码和安装包下载,有效期一个月。
OpenMetadata 包括以下内容:
元数据模式- 使用类型、实体和实体之间关系的模式定义元数据的核心抽象和词汇。这是开放元数据标准的基础。还支持具有自定义属性的实体和类型的可扩展性。
元数据存储- 存储连接数据资产、用户和工具生成的元数据的元数据图。
元数据 API - 用于生成和使用基于用户界面模式以及工具、系统和服务集成构建的元数据。
摄取框架- 用于集成工具并将元数据摄取到元数据存储的可插入框架,支持大约 55 个连接器。摄取框架支持众所周知的数据仓库,如 Google BigQuery、Snowflake、Amazon Redshift 和 Apache Hive;MySQL、Postgres、Oracle 和 MSSQL 等数据库;Tableau、Superset 和 Metabase 等仪表板服务;消息服务,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster 等管道服务。
OpenMetadata 用户界面- 用户发现所有数据并就所有数据进行协作的单一位置。
核心功能
主要使用Docker的安装方式,几分钟就可以搞定。
首先查看python版本。
python3 --version
需要python 3.7 3.8 3.9三个版本都可以。
查看docker版本。
docker --version
20.10.0或者更高的版本。
docker compose version
需要docker compose 2.1.1或者更高的版本。
建立文件夹
mkdir openmetadata-docker && cd openmetadata-docker
创建虚拟环境。
python3 -m venv env
虚拟环境生效。
source env/bin/activate
更新pip
pip3 install --upgrade pip setuptools
安装openmetadata
pip3 install --upgrade "openmetadata-ingestion[docker]"
确定安装成功
metadata docker --help
启动容器
metadata docker --start
启动postgre
metadata docker --start -db postgres
随后访问
http://localhost:8585
成功!
首页展示
多语言支持
概览页面
数据质量监控页
数据资产
业务术语表功能
一些数据源的配置。
未完待续~
更多大数据、数据治理、人工智能相关知识分享,请关注大数据流动。
手机扫一扫
移动阅读更方便
你可能感兴趣的文章