作者介绍
@云娜
某大厂数据开发平台的产品;
专注数据治理和数据平台的相关内容;
“数据人创作者联盟”成员。
全文一共2800字+,阅读需要10分钟
今天分享的主题是网易数据治理工具产品实践,主要分 4 部分:
第一部分是网易内部一些业务线过往数据治理专项活动的回顾;
第二部分是当前数据治理面临的痛点;
第三部分是针对当前的治理痛点进行产品整体策略的分享;
第四部分是数据治理工具未来的规划。
首先分享的是网易内部,例如严选、传媒、音乐等在数据治理方面面临的一些问题,然后是针对这些问题做出的产品策略以及初步取得的成效。
对于业务线专项治理背景,都比较相似,一方面是随着业务的发展,严选、传媒和音乐的计算、存储达到瓶颈,但是对于业务方而言很难判断难以判断目前需要继续扩容增加资源,还是对劣质数据进行治理以降低资源危机,但是在这个过程中会面临如何定义劣质资源,怎么处理劣质资源,然后解决危机,因此进行治理成为亟待解决的问题。
另一方面而言,数据的生产链路较长,缺乏数据加工的统一标准,整个团队内有哪些数据,这些数据应该由谁负责,团队内有哪些数据,这些数据通过哪些任务产出,数据是否被业务系统和下游系统有效使用,数据的存在是否有意义,这些问题数据团队都难以准确回答。
针对数据治理方面面临的一些问题,我们制定了以下策略:
第一是具体化到治理责任人,包括表和任务具体到责任人,责任人资产梳理,指定专项治理负责人,对无认领资产下线;
第二是优化存储资源,涉及到无用数据下线,首先要对无用数据规则进行定义,然后基于无用数据进行扫描诊断,然后业务方对无用数据进行确认,最后操作下线,形成闭环分析;
第三是优化计算资源,对每次执行任务消耗的成本进行分析,整理出相关数据之后,业务方会根据数据来优化任务,对无用任务进行下线治理,针对某些只优化了某几个节点的任务形成前后对比分析,来了解优化是否有效,产生价值。
最后是治理效果量化可评估,在存储资源治理时知道下线了多少物理存储,在设置对表生命周期管理时,因为到期进行下线处理后节省了多少存储资源,将治理成效形成可量化的指标。
接下来是成本度量体系,在业务内部会有账单体系,在体系中明确定义了计算定价和存储定价,面临的问题是如何将计算和存储折算成费用。
从计算、存储的元数据仓库中对表和任务进行清洗和计算,然后将这些任务执行过程中消耗的资源结合账单体系折算成费用,会较清晰的知道调度任务、Query查询消耗的计算成本,数据表存储成本+产出表的计算任务分摊的成本。
针对于以上策略,已经有一些功能落地。
首先是任务和表具体化到责任人,这个责任人可以在列表中筛选自己的任务,如果这个任务没有责任人或者责任人离职,这个任务会转接到业务专项治理责任人,然后是无用数据下线功能,会给对应人员提供入口,让他对无用数据或表确认下线,确认下线后,平台会把下线内容暂存在回收站,到达一定时期后会进行彻底的删除;
接下来是表生命周期,支持对内部表和外部表的生命周期设置,防止某些表应该在一定的时间被删除,但由于没有设置生命周期,而产生冗余的存储。接下来是对离线开发和Query查询消耗的任务成本进行分析,例如任务耗时多久,每次运行产生的预估费用是多少。
然后是针对治理效果的抓手,制定负责人红黑榜,可以知道某项任务下不同人做的好坏程度,然后是对费用和下线情况的指标量化,例如下线了多少任务,节省了多少存储,预估节省了多少费用,在整体上形成清晰的认知。
最后是邮件和内部工具的通知,形成催促的作用,收到通知的人包括项目管理人,他可以知道当前项目下有哪些人还没有完成相关事宜,另一类人是表和任务的真正负责人,他需要知道自己还有哪些任务需要优化,完成治理后可以为项目 节省多少费用。
当前治理痛点包括:
(1)数据不规范,存在误删风险,表目录定义不规范,对外表生命周期管理,若未校验核对,选择删除目录文件会存在数据丢失的风险;
(2)不被重视,治理动力不足,疲态应对业务需求,只开发不治理,动力不足,人员更替频繁,遗留大量历史数据;
(3)治理非闭环,周期性催促治理周期性被领导催着治理,阶段性治理和资源告急循环往复,缺乏长效治理机制;
(4)治理效果量化指标粗糙,各个负责人下线了哪些数据,节约了多少存储,省了多少费用,无从得知,更加衍生治理的消极心态。
在数据治理方面依然有很多填不完的坑,例如:
(1)存储成本,数据量持续增加,源源不断的带来存储成本;
(2) 计算成本,队列资源持续紧张,任务优化迫在眉睫;
(3)数据质量,加工链路长,任何一个环节都可能带来质量问题;
(4)模型规范,基于ODS、DWD层生成的报表数量居高不下,模型复用率低;
(4)数据安全,管理员成员繁杂,权限太大如何控制,闲置的权限如何回收;
(5)数据价值
数据服务API、BI报表等下游应用系统,引用表的存储和计算成本如何估量,如何通过下游应用量化数据价值。
接下来分享的是基于上面提到的痛点,分享产品的整体策略。在数据治理时采用的整体策略是阶梯化的治理方案,第一明确治理的范围,系统性梳理数据治理
范围,让决策者看见并关注,知道哪些数据应该进行治理;第二量化数据治理的价值,需要一套度量体系+抓手,让一线用户关注并看见问题,形成积极的治理新她爱;第三形成体系化治理,短期运营+长期机制建设,软硬策略兼施,保证落地结果并体系化工具化治理。
第一是明确治理范围,围绕数据的全生命周期展开,从数据生产到管理,包含:成本、标准、质量、安全、价值;包括数据生产,数据消费,数据管理。
第二是量化数据治理价值,基于资产健康分维度,具体涵盖以下五个方面,建立公司/项目/个人视角的数据资产量化评估体系。针对不同的资产健康分采用不同的策略。
第三是体系化的数据治理,针对刚才提到的五个方面明确每个方面需要治理的点,采用相应的手段和优化工具。主要围绕发现问题,解决手段,持续运营持续沉淀三个方面展开。
最后一部分是数据治理工具未来的规划,愿景是打造成一款全流程、自动化、可落地、高质量的大数据评估和优化工具,成为数据治理的利刃;使命是降本提效,省钱省力。
-END-
以上就是关于网易数据治理工具产品实践是不是天边的大海是什么歌的歌词全部的内容,关注我们,带您了解更多相关内容。
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。