理论教育 面向成分数据的回归分析方法:提出的新方案

面向成分数据的回归分析方法:提出的新方案

时间:2023-11-17 理论教育 版权反馈
【摘要】:因变量U k和自变量U-k的关系不能直接通过公式发现。对于求解偏最小二乘回归问题,很多算法可以估计公式中的回归系数。根据=0,公式可以简化为记U k替换后的数据集为其中=u k,ij(i∈{1,2,…公式将插补值调整为数据的原始尺度。在算法的每一步中,通过公式,算法从对应的探测范围值e k j计算出对应的ψk,ij值,之后在每一步这个值被逆变换到单形上。

面向成分数据的回归分析方法:提出的新方案

对于有D个部分的成分数据变量,如果有n个观测值,则数据集可以记为

其中成分数据集X的每一行为一个成分数据,每一列x j(j=1,2,…,D)是由所有n个成分数据的第j个成分组成的。假定成分数据集X有近似零值,近似零值是由于观测值低于已知的探测范围而产生的,而且不同成分数据相同部分的探测范围是相同的。对应的探测范围可以被记为e=(e 1,e 2,…,e D)T,其中e j是第j个成分x j的探测范围,且事先已知。

首先,通过乘法替换法对近似零值进行初始化,其中近似零值等于探测范围乘以65%。

在这种情况下,协方差结构的扭曲最小[56]。然后对X的所有部分进行Q型聚类分析[18,93],其中X的方差矩阵为不相似矩阵[19]。方差矩阵中每行每列的元素为任意两个成分的对数比率的方差。聚类分析的目的是使得相似的部分被放在相同的类中,不相似的部分被放在不同的类中。假定通过某个准则得到聚类个数为g,最后根据每类中的部分数得到g类子成分数据集X 1,X 2,…,X g,

其中x k j(k j∈{1,2,…,D})是X k中的第j个成分。记M k⊂{1,2,…,n}为X k中有近似零值的成分观测指标,M k,i⊂{1,2,…,D k}为X k的第i个观测值中有近似零值的部分指标,则O k,i={1,2,…,D k}\M k,i指的是剩余部分指标。换句话说,M k对应数据集X k的行指标,M k,i和O k,i对应数据集X k的列指标。

接下来,替换子成分数据集X k(k∈{1,2,…,g})中的近似零值。首先,数据集X k通过clr变换得到clr系数U k=clr(X k)=(u k,1,u k,2,…,u k,Dk)=[u k,ij]n×Dk。对于第i(i∈M k)个观测值,近似

零值x ik j<e k j(j∈M k,i)导致未知数u k,ij小于ψk,ij,其中

ψk,ij是探测范围第k j个元素对应的clr系数。记X-k=(X 1,…,X k-1,X k+1,…,X g),U-k为X-k的clr系数,然后使用偏最小二乘回归[94]来建立因变量U k自变量U-k的线性关系

其中=(βk,01k,02,…,βk,0Dk)是截距项,βk=(βk,1k,2,…,βk,Dk)是回归系数k=(ϵk,1k,2,…,ϵk,Dk)为误差项矩阵,1n为元素全为1的列向量。因变量U k和自变量U-k的关系不能直接通过公式(3.2.2)发现。事实上,因变量U k和自变量U-k可以通过潜变量建模,分别根据以下模型确定

其中T 1和T 2是n×r(r≤min(D k,D-D k,n))得分矩阵,P 1和P 2是载荷矩阵,E 1和E 2是误差矩阵。通过最大化有约束的协方差来获得得分矩阵T 1和T 2[94]。对于求解偏最小二乘回归问题,很多算法可以估计公式(3.2.2)中的回归系数。

通过公式(3.2.2)可得

根据文献[58,59],未知数u k,ij插补为

其中u-k,i指的是U-k的第i行,正态分布N(0,1)的分布函数和密度函数分别记为Φ(·)和φ(·),是变量u k,j在条件变量U-k下的估计方差的平方根。公式(3.2.4)的插补值是通过正态性假定下简化期望E(u k,ij|u-k,i,u k,ij<ψk,ij)得到的[58]。根据

可知插补值小于临界值ψk,ij

因为clr系数求和为零,所以需要调整已知的数据u k,ij(i∈M k,j∈O k,i)。对于任意的j,l∈O k,i,成分x ik j和成分x ik l没有零值,因此比率x ik j/x ik l是不变的。由于u k,ij-u k,il=ln(x ik j/x ik l),修正后的数据需要满足

当j固定,l在O k,i中变动时,上面不同等式的和为

其中为集合O k,i的基数。根据=0,公式(3.2.5)可以简化为

记U k替换后的数据集为其中=u k,ij(i∈{1,2,…,n}\M k)。通过clr逆变换后的数据集为为了得到原始的尺度,应该重新调整值(i∈M k,j∈M k,i)。最后,近似零值x ik j(i∈M k,j∈M k,i)应该替换为以下表达式[63]

其中x ik l(l∈O k,i)为原始不是近似零值的值。公式(3.2.7)将插补值调整为数据的原始尺度。

该方法的具体步骤如下:

Step 1 通过乘法替换方法对近似零值进行初始化。

Step 2 对X进行Q型聚类分析得到g类部分,对应于g个子成分数据集X 1,X 2,…,X g。通过每一类中近似零值的比例对g类进行降序排列。不失一般性,假定g类已经排好序,即第一类中近似零值比例最高,其次是第二类,第g类中近似零值比例最低。

Step 3 设置k=1。

Step 4 记X-k=(X 1,…,X k-1,X k+1,…,X g),而且X k和X-k的clr系数分别为U k和U-k。建立U k和U-k的偏最小二乘回归,然后通过公式(3.2.4)插补未知数据u k,ij(i∈M k,j∈M k,i),通过公式(3.2.6)调整已知数据u k,ij(i∈M k,j∈O k,i)。

Step 5 对插补后的数据集进行clr逆变换。最后,通过公式(3.2.7)替换近似零值x ik j(i∈M k,j∈M k,i)。

Step 6 对于每个有近似零值的子成分数据集X k对应的k(k∈{2,3,…,g})执行Steps 4~5。

Step 7 重复Steps 3~6直到上一步迭代和下一步迭代中每一类X k(k=1,2,…,g)的clr系数的元素平方差之和小于一个非常小的数。

Step 8 按成分部分原始的顺序对g类部分重新进行排序。(www.daowen.com)

虽然算法的收敛性没有给出证明,但是在模拟和实例分析中提出的算法通常在几次迭代后收敛。在算法的每一步中(参见算法Step 3的指标k),通过公式(3.2.1),算法从对应的探测范围值e k j计算出对应的ψk,ij值,之后在每一步这个值被逆变换到单形上。由于ψk,ij和e k j的单调对应关系,clr系数的插补值低于ψk,ij,对应于原始尺度数据近似零值的替换值低于e k j。实践经验也反映了这一点,即本节提出的方法的近似零值的替换值是低于对应的探测范围值的。

定理3.2.1 在偏最小二乘回归(3.2.3)中,因变量为X k的clr系数或ilr坐标能得到等价的结果。此外,在两种坐标系统下,公式(3.2.4)可以产生等价的结果。

证明 基于简单偏最小二乘算法来求解偏最小二乘问题。为了建立u k和u-k的偏最小二乘回归,首先考虑优化问题

其中w(c)l(c)l(l=1,2,…,r)为权重向量,下标(c)表示u k是成分变量x k的clr系数,r指的是给定的偏最小二乘因子数。记W(c)r=(w(c)1,w(c)2,…,w(c)r),则由偏最小二乘因子构成的数据矩阵为F(c)=(U-k w(c)1,U-k w(c)2,…,U-k w(c)r)=U-k W(c)r

同样,使用的ilr坐标为因变量,记为其中是X k置换后的成分数据集。建立的偏最小二乘回归,优化问题为

其中w(i)l(i)l(l=1,2,…,r)是权重向量,下标(i)代表是成分变量的ilr坐标。由偏最小二乘因子构成的数据矩阵为F(i)=(U-k w(i)1,U-k w(i)2,…,U-k w(i)r)=U-k W(i)r,其中W(i)r=(w(i)1,w(i)2,…,w(i)r)。

对于公式(3.2.8)和公式(3.2.9)的优化问题,权重向量可以通过拉格朗日乘数法得到[95,96],w(c)l和w(i)l(l=1,2,…,r)分别为的最大特

征值相关的单位特征向量,其中

根据clr系数和ilr坐标之间的关系可以得到

其中P是置换矩阵,ΨDk是D k×(D k-1)对比矩阵,则

因此W(c)r=W(i)r,F(c)=F(i)

因变量U k和自变量U-k的偏最小二乘回归模型为

其中

=(β(c)k,01(c)k,02,…,β(c)k,0Dk)是截距项,β(c)k=(β(c)k,1(c)k,2,…,β(c)k,Dk)是回归系数,ϵ(c)k=(ϵ(c)k,1(c)k,2,…,ϵ(c)k,Dk)是误差项矩阵。根据文献[94],公式(3.2.10)中的回归系数估计为

其中0r是元素全为0的列向量。

同样,因变量和自变量U-k的偏最小二乘回归模型为

其中=(β(i)k,01(i)k,02,…,β(i)k,0Dk-1),β(i)k=(β(i)k,1(i)k,2,…,β(i)k,Dk-1)是参数,ϵ(i)k=(ϵ(i)k,1(i)k,2,…ϵ(i)k,Dk-1)是误差项矩阵。公式(3.2.12)的回归系数通过下式来估计

从公式(3.2.10)和(3.2.12)可以得到由于u k,j通过公式(3.2.11)和(3.2.13)可得

因此,在偏最小二乘回归中,因变量为clr系数或ilr坐标能得到等价的因变量值,差别在于一个尺度常数。

通过文献[58,59]和公式(3.2.14),未知数据u k,ij的插补值为

其中是u k,j在条件U-k下估计方差的平方根,u-k,i指的是U-k的第i行,N(0,1)的分布和密度函数分别记为Φ(·)和φ(·)。

同样,使用X k的ilr坐标,近似零值x ik j<e kj导致未知数据小于其中

根据公式(3.2.15),未知数据的插补值为

其中在条件变量U-k下估计方差的平方根。

现在证明根据公式(3.2.16)可得

可知

因此

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈