|数据治理与安全 在线峰会 数据治理论坛2021.08.28,09:00 - 17:30datafunsummit2021 |ۢଛ ၾ௳ӿᳵկөහഝᓕቘᨮᨱո|小米数据管理与应用实践datafunsummit2021 |引言数据管理的核心是元数据平台的建设,以元数据支撑数据管理上层应用 |元数据平台建设01හഝᥢ03ፓ୯හഝࣈࢶ02හഝ౮လቘ04හഝᨶᰁୌᦡ05๚ᥢښ06 |01元数据平台建设元数据平台的建设现状与架构演进 主要从元数据基础信息、资产信息、衍生信息、作业信息及血缘信息等方面介绍平台的建设情况 |元数据平台 | 元数据元数据:描述数据的数据 •实体: •表元数据 •作业元数据 •属性: •业务元数据 •衍生元数据 •关系: •血缘元数据 |元数据平台 | 技术架构source & 服务应用integrationstorage |元数据平台 | 演化过程:全域元数据元数据架构演化:全域 域拓展 •hive ==> •mysql/talos/hive/doris/kudu/es/iceberg 统一元数据 •hive metastore ==> •引入 metacat 统一元数据视角与管理 |元数据平台 | 演化过程:实时血缘血缘架构演化:实时 原方案 •ᥴຉ hdfs ෭ப •t 1 •Ꮯاٴӧ 新方案 •කईᅩ •ਫاٴ •ᥴຉاٴᔜ •ᕮݳғ64/ proxy log |元数据平台 | 演化过程:精准计量访问计量架构演化:解决 0 与 1 价值 •හഝٯᅾᑕଶ •ݗفӧත҅ᤩᦢᳯᦇ౮ဌᦢᳯҙ方案 •ᥴຉ hdfs ෭ப •ݳᕮ sql ਭᦇ؉ץྋ |02元数据应用• 数据地图 • 数据规范 • 成本治理 • 质量建设 |元数据应用 | 数据地图-搜索元数据搜索与发现 •ඪ೮ᤒ̵ਁྦྷ̵ൈᬿמ௳̵හՙړ੶̵හഝړᔄ̵ຽᓋ̵᮱ᳪᒵמ௳ᔱ •قऒزහഝጱᔱҁਠ࠺ӿ҂ҁ7dorv/hive/doris/kudu/iceberg/es/mysql҂ •ඪ೮ຽ̵ᖌଶ̵፡ᒵמ௳ጱᔱҁ๚҂ |元数据应用 | 数据地图-血缘数据血缘 •ඪ೮හഝ॒ቘق᱾᪠ጱᤅᖭᐏ •ᤅᖭᔱҁਠ࠺ӿ҂ •ݒๅ᭗Ꭳҁਠ࠺ӿ҂ |元数据应用 | 规范治理建模规范度 •ᥢݳᒧވฎݷғݷ •ړ੶ғ᩻ᬦ 70% ጱᤒဌํೲහՙᥢړ੶ •ຽғහഝऒړᔄ̵ຽᓋᒵ҅ဌํຽᥢଶଶ࠺ਠ建模完善度 •੶አғ':6/ads ፗളᦢᳯ ods •ັᧃᥟፍғ$g-hoc ັᧃӿ dwd/dws/ads |元数据应用 | 成本治理(存储)成本分析优化闭环 •ᥡሿᇫ •ັᳯ᷌ •؉ս۸ •ḇݍ೭账单逻辑 •හڊӟ •ॠᕆᨴܔ •ೲո୭ં •ܨᶼ |元数据应用 | 成本治理(存储)成本分析:大盘 & 下钻到人 •፡᮱ᳪݪل •᮱ᳪ፡ৼ᮱ᳪ •ੜᕟ፡ӻո •ӻո፡ݷӥጱᤒ |元数据应用 | 成本治理(存储)成本优化 •ٯ॓ҁ֗᷇ᦢᳯ҂ •ڢᴻҁٯහഝ҂ •๗ᓕቘޮኞ |元数据应用 | 成本治理(存储)存储成本优化效果 (模拟数字) •හഝᰁीᳩ۠ᕚ •ᕚݥܲ౮ •౮۠ᕚҁӱۓྋଉीᳩ҂ •౮؊ჼᕚҁӱۓӧीᳩ҂ •౮ਫᴬᩳ۠ใᕚ |元数据应用 | 质量建设数据内容质量检查 •݊ҁහഝኞծכᵑ҅ୌᦡӿ҂ •ӟࠔ •Ꮯاٴ •ਠෆ •ӟᛘ |元数据应用 | 质量建设技术架构 •时间触发、事件触发 •可扩展无状态 worker •多数据源设计(hive/hdfs/doris) •便捷的规则模板与产品化 |03未来规划• 数据管理长期路线 |未来规划 | 生产保障联动资源调度数据生产时效保障:基线 -> 作业 -> 调度 -> yarn 全链路打通 •चᕚᓕቘғचᕚᕆڦ̵ծڊᳵ •ኞծಗᤈғᘶۖ yarn job սضᕆඪ೮ •ፊഴᶼᦄғಗᤈᬰଶ̵Ꮘᕚᶼᦄ 计算资源治理: •ӱ֢੬ب •ูێಚൈ •හഝෑ •... ... |未来规划 | 长期路线元数据建设长期路线:回答好 2 个问题, •හഝ؋଼ਧԏғջԍጱහഝฎӟղঅጱහഝҙහഝጱ؋଼ᑕଶই֜ҙ •හഝ؋଼လቘғӟղӧ؋଼ӧड़অጱහഝ҅ଫᧆই֜လቘҙလቘݸํջԍතፅҙ •හഝလቘ̵ཛྷࣳᥢ̵ᩒრֵአ̵හഝਞق̵හഝհᒵොᶎਧԏහഝ଼ଶ؋ |未来规划 | 业务赋能(讨论)如何让业务愿意把数据接入到中台,从业务痛点出发 质量: -重保数据能够保障产出 -数据产出后的质量检查 效率: -规范建模、查询优化让出数加快 -找数加快 -问题追溯 成本: