数据治理之数据质量评估办法(参考)

下面将从数据质量评估核心指标、数据质量评估模式、数据质量评估管理流程三个方面介绍数据质量评估方法。
数据质量评估的核心指标
数据质量问题频率
指标定义:数据质量问题频率 = 数据质量问题发生次数/存储的总数据量
指标单位:次/GB
根据数据质量评估指标将各数据仓库中的主数据及其历史行为划分为三个等级:

数据治理之数据质量评估办法(参考)
通过对数据质量问题频率的考评和等级划分,就可以从数据仓库众多的数据中解放出来,集中精力把有限的资源投入到需要重点关注的主题数据。因此数据质量可信等级是数据质量提高的有效途径。与之相配套的,必须建立了一套相关的管理制度,管理制度主要包括:
(1)可信等级初始值确立流程
数据中心平台各主题域的数据质量可信等级初始值一般设定为一级,由数据质量管理小组牵头,执行全面检查后报数据中心主管部门批准后确立。
(2)可信等级变更流程
数据质量管理小组每季度、每年组织定时抽查、全面检查时,每半年根据检查结果对相关主题域的可信等级提出调整意见,报数据中心主管部门批准后确立。
数据质量评估具体方法:
对于具体数据的质量检查模式采用记录数检查法、关键指标总量验证法、历史数据对比法、值域判断法、经验审核法及匹配判断法。通过这些方法方法,可以对单个数据点的数据准确性进行检查,及时发现数据质量问题。
(1)记录数检查法
通过比较记录条数,对数据情况进行概括性验证。主要是检查数据表的记录数是否为确定的数值或在确定的范围内。
适用范围:
对于数据表中按日期进行增量加载的数据,每个加载周期递增的记录数为常数值或可以确定的范围时,必须进行记录条数检验。
(2)关键指标总量验证法
对于关键指标,对比数据总量是否一致。主要是指具有相同业务含义,从不同维度统计的汇总逻辑的检查。
适用范围:
同表内对同个字段从不同的维度进行统计,存在汇总关系时,必须进行总量检验。
本表的字段与其它表中的字段具有相同的业务含义,从不同的维度统计,存在汇总关系,且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行总量检验。
(3)历史数据对比法
通过历史数据观察数据变化规律,从而验证数据质量。通常以同比发展速度进行判断。评估时应根据各种指标发展特点,重点对同比发展速度增幅(或降幅)较大的数据进行审核。历史数据对比法包括同比和环比两种方式。
适用范围:
不能进行记录数检查法、关键指标总量验证法,且事实表的记录数小于1000万条时必须进行历史数据对比法。
(4)值域判断法
确定一定时期内指标数据合理的变动区间,对区间外的数据进行重点审核。其中数据的合理变动区间范围是直接根据业务经验来确定的。
适用范围:
事实表中的字段可以确定取值范围,同时可以判定不在此范围内的数据必定是错误的。满足此条件必须进行值域判断法。
(5)经验审核法
针对报表中指标间逻辑关系仅靠计算机程序审核无法确认、量化,或有些审核虽设定数量界限,但界限较宽不好判定的情况,需要增加人工经验审核。
适用范围:
以上方法都不适用的情况下,可以使用经验审核法。
(6)匹配判断法
与相关部门提供或发布的有关数据进行对比验证。
适用范围:
与有相关部门提供或发布的有关数据口径一致的,可以使用匹配判断法。

Original: https://blog.csdn.net/yu7888/article/details/126583507
Author: 大数据学习僧
Title: 数据治理之数据质量评估办法(参考)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/700542/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球