做过数据产品的人都会知道,质量高的数据对于产品的意义。笔者在之前曾经历过数据质量管理的具体功能设计,算是较为完整地感受过数据质量管理过程。所以在此简单复盘下经验,借此抛砖引玉。
为什么有这么多人强调改善数据质量管理的重要性,用一种很抽象的比喻描述,如果把整个数据应用比作人体的话,那好的数据就相当于新鲜和沸腾的血液,能让我们的身体充满活力,高效地工作思考。而质量差的血液携带废物和毒素,随著毒素越积越多,血液以及血管就会发生病变,血液流经的全身各处器官也会大受影响。如果非要要具体的数据证明,我摘取了一些专家的统计:
影响因素
在此附上数据的生命周期图,包括各环节的数据流转和数据处理。
评估维度
具体工作
如何通过具体工作来贯彻落实数据质量管理呢?由于数据质量管理是贯穿数据整个生命周期的,所以根据数据的各环节进行分点描述:
数据稽核
(1)定义
(3)校验流程
2、配置调度规则,例如调度频率等。
2)重复值处理
3)异常值处理
4)不一致值处理
5)丢失关联值处理
参考资料
谈数据稽核(3)
重点!速查文档地址请戳此
推荐阅读: