为了说明本节所提出的方法的良好表现,本小节对该方法与乘法替换方法(mult R)[56]、乘法对数正态替换方法(mult LN)[60]、偏最小二乘回归方法(PLS)[63]和变量选择后基于模型的替换方法(var OLS)[63]进行比较。考虑三种评价指标,即算法的时间消耗(Time)、成分误差偏差(CED)和协方差矩阵的相对差异(RDCM)[59]。给定原始成分数据集X,这个数据集中有相对非常小的值,将数据集中每个小于探测范围的非常小的数值设置为零值,则这个数据集中有近似零值。记所有近似零值被替换后的数据集为X*,则评价指标CED定义为
其中x k是数据集X的第k行,M是所有有近似零值的观测值的行指标,是M中所有元素的个数,d a(·,·)代表单形S D上的Aitchison距离。评价指标RDCM定义为
其中s ij是ilr(X)的第i个坐标和第j个坐标的样本协方差。评价指标Time反映了计算效率。后两种评价指标CED和RDCM分别代表了距离差异和协方差差异。
在本小节,我们将进行若干模拟研究。接下来试验的目的是检验本节提出的近似零值插补方法在计算时间减少和计算精度提高方面的表现。首先从下面的潜变量模型中产生有n个样本和D个变量的数据集Z[63]
其中T是一个n×l得分矩阵,有l个成分,B是一个载荷矩阵,E为误差项矩阵。矩阵T和矩阵E中的元素分别从正态分布N(0,1)和N(0,0.01)中产生,B中元素是从均匀分布U(-1,1)中产生。成分数据集X从数据集Z的ilr逆变换得到。对于第j个成分,考虑x j的α分位数Qα(x j)作为探测范围,然后将第j个成分中小于对应探测范围的数据设置为零值。对于本节所提出的方法的Q型聚类,采用系统聚类Ward方法,通过围绕中心点的分割算法来决定聚类个数,选择这个算法是因为在R软件中通过函数hclust和pamk很容易实现。
设置(n,D,l)=(50,10,2)和(50,100,5),对于每种设置重复100次模拟。假定近似零值被放置在X的每隔第三列中,则探测范围向量可以被记为
e=(Qα(x 1),0,0,Qα(x 4),0,0,Qα(x 7),0,…)T(www.daowen.com)
构造5种情形的探测范围向量,其中α从0.03变到0.3,步长为0.06。模拟的平均结果见表3.2.1,从表3.2.1中可以看出,随着近似零值的增加,所有方法的CED和RDCM倾向于变大。当(n,D,l)=(50,10,2)时,不同方法的计算时间非常接近,在两种评价指标CED和RDCM上,PLS、var OLS和本节提出的方法相比其他方法表现更优。此外,本节提出的方法相比其他已有的方法有较小的CED和RDCM。当(n,D,l)=(50,100,5)时可以得到相同的结论,本节提出的方法的CED和RDCM小于已有方法的这两种评价指标值。与PLS和var OLS两种方法相比,本节提出的方法在计算时间减少方面的表现是明显较好的。
表3.2.1 对于模拟数据集5种方法在5种探测范围向量情形下的3种评价指标
续表
本小节同样也做了一些模拟来表明本节提出的方法在高维时明显优于其他方法。在这个模拟中,假定成分数据集X在每隔10个成分中有近似零值,且近似零值小于对应成分的15%分位数。表3.2.2给出了固定n=50,l=5,变化D=100,200,300,400,500时,100次模拟的平均结果。表3.2.2中没有包含PLS方法是因为它的计算时间可能会非常大。从表3.2.2中可以看出,对于小的D,本节提出的方法的计算时间比其他方法长。当D=100时,表3.2.1和表3.2.2的结果有所区别,原因是表3.2.2中有近似零值的成分部分数小于表3.2.1中有近似零值的成分部分数。然而,随着维数的增加,本节提出方法的计算时间小于var OLS方法。但是本节提出的方法的计算时间没有增加的趋势,因为该方法的计算工作量依赖于有近似零值的成分部分数,与维数没有直接关系。除此之外,该方法的计算精度一直高于其他方法的计算精度,即该方法一直有较小的CED和RDCM。
表3.2.2 对于模拟数据集4种方法在不同维数情形下的3种评价指标
总而言之,PLS方法有高的计算时间和高的计算精度,var OLS方法有低的计算工作量和低的计算精度。为了平衡计算时间和计算精度,建议用本节提出的方法,它在高维时有少的计算时间以及高的计算精度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。