真实数据是不完美的,噪声、离群点、默认值、数据偏差、标签错误、数据量不足等问题广泛存在。此外,为了实际应用,可能需要将一些连续属性离散化(如将长度数值转化成长中短的描述)。数据中存在大量属性,做技术分析时,需要分析确定有效的属性,以减少所用属性的数量。我们可以基于常识提高数据的质量,也可以利用数据对象之间的联系进行分析。例如,通过计算对象间的相似度或距离,进行聚类、分类或异常检测。通常,数据集可看作是数据对象的集合。数据对象的其他名称有记录、点、向量、时间、样本、模式、实体和观测等。数据对象使用一系列刻画其基本特性的属性进行表征,例如,使用质量表征一个质点。相关的定义如下。
定义2.1 属性是对象的性质或特性,它因对象而异或随时间变化。
例如,眼球的颜色因人而异,烤肉的色泽随时间而变化。在最基本的层面中,属性并非数字或符号。为了计算机处理的方便,在实际应用中,需要使用数字和符号,选取合适的属性进行赋值。为了定义更为明确,需要统一测量标度(见定义2.2)。(www.daowen.com)
定义2.2 测量标度是将数值或符号值与对象属性相关联的规则(函数)。
在形式上,测量过程是使用测量标度将一个值和一个特定对象的属性进行关联的过程。例如,确定测量的电压值和电流值,将人的性别分为男女。一个对象属性的“具有物理意义的值”可以被映射到数值或符号值,例如,可以用“220 V”这一数值描述实际的电压大小。属性与用来度量它的值有不同的性质,例如,我们的身份证中使用长整数和字母,使得每个人具有独一无二的标识号。其中的整数若直接用于比较大小,则毫无意义。将身份证号切分后,可以得到基于年月日表达的数字串。明确属性的类型,我们就明确了可以使用属性的哪些性质,从而可以避免期望仅使用一些身高数据就可以获得准确的体重估计值之类的无意义行为。通常,待描述的属性的类型与测量标度的类型一致。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。