登录 注册 | 服务热线:400 886 1266 | ENGLISH | 
 
|
数据质量

数据质量评估方法研究

发布时间:2012-11-22 17:54:41  点击数:3562


一、数据质量定义

  直观上,数据质量的概念似乎很显然。但是,在当前的实践中,研究者们尚未给出一个恰当的数据质量的定义。研究表明,对于数据使用者而言,数据质量是一个多维度或者说属性的概念。这些维度包括数据的精确性、可信度、关联度和实效性等。

但是,研究者们普遍认为,应该从数据使用者的角度定义数据质量。因此,基本的数据质量定义是"适用",还有一个比较流行的观点就是"高质量的数据应该是能充分满足用户使用要求的数据"。

  一般情况下,数据仓库系统的数据主要存在以下质量问题:(1)数据缺失;(2)数据逻辑错误;(3)相同含义的数据实体在不同系统中的属性值不一致,没有权威的解释;(4)数据重复。

二、数据质量评估方法

  (一)基本概念

 为了对数据质量进行评估,我们给出了一个由六元组构成的评估模型:M=<D,I,R,W ,E,S>
  D:需要进行评估的数据集。对于关系数据库来讲,一个数据集相当于一个表或视图。
  I:数据集D上需要进行评估的指标,如完整性、准确性、一致性等。
  R:与评估指标相对应的规则。规则可以使用规范化的自然语言或形式化语言来书写,以便于转换成程序脚本
  W:赋予规则R的权值(大于0的整数),描述了该规则在所有规则中所占的比重。
  E:对规则R给出的期望值(介于0到100之间的实数),是在评估之前对该规则所期望得到的结果。
  S:规则R对应的最终结果(介于0到100之间的实数),是在检测该规则后所得的结果。
  数据集随应用的不同可能有不同的质量评估需求,所以,一个数据集可以对应多个质量评估模型。在一个数据质量评估模型中,一个数据集可以对应多个评估指标,一个评估指标可以对应多个规则。

  (二)构造技术

  构造数据质量评估模型要经过4个步骤:确定数据集评估应用视图,选择评估指标,制定规则集,计算规则结果得分。下面将结合具体的实例来说明如何构造数据质量评估模型。

  假设某网站用户系统有一个用户信息表Customer,如下:

 1、确定数据集评估应用视图
 在进行数据质量评估时,首先要提出数据质量评估的需求,要确定哪些数据是用户感兴趣的(包括数据库、数据库中的数据集和数据集上的字段),对它们建立对应的用户视图。

 2、选择评估指标
 对于每个给定的数据集,选择所需要的评估指标: 对于Customer,选择完整性和有效性两个指标。

 3、制定规则集
 根据选择的评估指标,制定数据质量评估规则,并确定它们相应的权值和期望值。对于Customer,针对完整性和有效性指标制定以下规则:
 (1)ID 非空(权值:5,期望值:90):完整性
 (2)ID长度为18位(权值:10,期望值:90):准确性
 (3)Sex值为 F 或 M (权值:10,期望值:98):有效性

   4、计算规则结果得分
 对于规则集中的每条规则R,检查数据集上的数据实例,计算满足R的数据元组的百分比,得到R对应的结果S。计算数据元组总数的百分比,就是最终结果:假设它们的结果分别为95,90,90。

 根据上面所定义的内容和计算的结果,形成Customer的数据质量评估模型,如下表所示:

 (三)评估模型

 当数据质量评估模型构造完成并计算了每条规则的结果之后,便可以利用该模型来计算每个数据集的数据质量结果。

 假设数据集T对应的规则集为Rt ( , ,……Rn ).赋予Rt中规则 的权值为 ,期望值为 , 计算的结果得分为 ,i=1,2,……n,由此计算数据集T的数据质量:

 数据质量绝对量化值


  SA是规则集Rt所得结果得分的加权平均值,它反映了数据集T的真实的数据质量状况。

  SR是SA与期望值的差值,它反映了数据集T相对于其期望值的数据质量状况,若SR符号为正,则其数值越大,说明数据质量比预期的更好;若SR符号为负,则其数值越大,说明数据质量比预期的更差。

  在上面的例子中,可以根据Customer的数据质量评估模型计算出Customer的两个数据质量量化值(SA=91,SR=一2.2)。在进行数据质量评估的过程中,可以灵活选择这两个计算方法,从两个不同的方面来评估数据质量。

三、结论

  针对数据质量评估问题,本文提出了一个数据质量评估模型,并阐述了模型的构造技术和计算方法。该模型可以通过量化的指标来对系统中整个或部分数据质量状况进行评估


 
分享到:
查看更多行业成功案例及解决方案