理论教育 数据质量问题及其影响分析

数据质量问题及其影响分析

时间:2023-06-21 理论教育 版权反馈
【摘要】:由于缺少具有针对性的调查设计或检验实验,数据质量的问题难以避免。下面介绍数据测量和收集过程中的数据质量问题。其意味着在某种程度上,数据与真实情况不符。数据集本身可能并不提供关于精度、偏倚等质量方面的描述,但在数据挖掘中,若对此忽视,可能会在分析中得到与现实相悖的结论。在排除质量不佳的数据的同时,随着要求的提升,分析者可能发现存在数据量不足的情况,此时需要扩展数据集,或者容忍一部分低质量的数据。

数据质量问题及其影响分析

数据挖掘处理的数据可能以前用于其他问题,或者用于未来尚未发现的某种问题。由于缺少具有针对性的调查设计或检验实验,数据质量的问题难以避免。因此,数据挖掘的第一步,通常称为数据清洗。下面的内容介绍数据质量,该部分内容与实际应用相关,主要涉及数据搜集问题。

测量设备、人工操作都可能会令部分数据的值甚至是整个数据对象丢失。同时,在一些情况下,可能会有不真实或者重复的对象。例如,对于一个当前住在多个不同地方的人,可能会有多条不同的记录。数据在记录过程中可能会出现错误,例如,一个人体重50 kg,身高却只写了1.69 cm。下面介绍数据测量和收集过程中的数据质量问题。首先定义测量和数据收集误差,然后考虑涉及测量误差的各种问题,如噪声、伪像、偏倚、精度和准确率;最后讨论可能同时涉及测量和数据收集的数据质量问题,如离群点、遗漏值、不一致、重复数据。

(1)测量误差与数据收集错误:测量误差是指测量过程中导致的问题。其意味着在某种程度上,数据与真实情况不符。对于连续属性,测量值与真实值之差被称为误差。数据收集错误是指数据对象或属性值在实际记录时产生的错误。测量误差和数据收集错误可能是系统或随机的。系统误差的校正方式较为固定,原因是其误差产生的方式一致。在特定领域,某些常见错误出现的频率高,但这些常见的错误已有解决方案,如可以通过一些人机交互手段或是多人反复检查来改正错误。

(2)噪声或伪像:通常包含时间或空间分量的数据。在这种情况下,常常可以通过信号或图像处理技术抑制噪声。尽管如此,完全消除噪声仍不可能,例如,采集心电的设备,若其脱落,则根本无法恢复波形。许多数据挖掘工作关注设计健壮性高的算法以增强其抗干扰能力,如在训练模型时使用数据增强。数据错误可能是一种特定的现象,例如,多张图片上同样位置具有相似的条纹。这种确定性失真有时被称作伪像。寻找算法去除伪像同样是可行之途。(www.daowen.com)

(3)精度、偏倚和准确率:精度是表示观测值与真实值的接近程度,通常用标准差来衡量。偏倚是测量值和被测量系统之间的偏差,通常用统计得到的均值和测量值获得。只有在能通过外部手段获取测量值的情况下,才能获得偏倚。而准确率描述的是测量值和实际值之间的接近度,依赖于精度和偏倚,是一个更为一般的概念。因此,没有一个准确的公式,需要重点考虑的是有效数字的使用。

数据集本身可能并不提供关于精度、偏倚等质量方面的描述,但在数据挖掘中,若对此忽视,可能会在分析中得到与现实相悖的结论。在排除质量不佳的数据的同时,随着要求的提升,分析者可能发现存在数据量不足的情况,此时需要扩展数据集,或者容忍一部分低质量的数据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈