主分量分析法是将多个相关变量简化为几个不相关变量线性组合的一种多元统计方法,也是提取信号基本特征和进行数据压缩的基本方法。它被典型地应用于多维数据的统计分析之中,其目的在于简化统计数据和揭示变量间的关系。
(一)主分量分析法的实施主分量的处理方法
1.首先对原始数据进行归一化处理,即变换为均值为0、方差为1 的归一化数据。
2.对归一化后的数据进行主分量分析,定义一个归一化后的方差阈值,去除数据集主分量中方差小于该方差阈值的数据,同时保留变换后输入向量和主分量变换矩阵。
考虑一个n 维向量X,表示为
如果已知其概率分布函数P(X),式(8-2-1)所示的向量均值可表示为
其中,E[X]为向量X 的期望值。当其概率分布函数未知时,向量X 的均值可以通过N 个样本统计抽样近似得出,即
向量X 的协方差定义为
其中,CX 是一个n×n 阶的实对称矩阵;其元素σij 则是向量X 的分量xi、xj的协方差。如果xi、xj 无关,则其协方差为零,即σij=σji=0。因此,向量X 的N 个统计样本下的协方差矩阵为
如果向量X 的概率分布函数{X}是先验已知的,则自相关矩阵为
对于自相关矩阵RX,用Φi 代表归一化特征向量,即。这时,相应的特征值λi 即为特征参数。
向量X 可以以其特征向量Φi 为基投影到一维子空间上,从而得到特征分量。图8-3 所示为二维变量与对应的主分量U1 之间的关系。(www.daowen.com)
维向量X 的分量xi 可表不为特征向量Φi 与X 的内积
图8-3 二维变量与对应的主分量
实际上,向量自相关矩阵的先验知识一般是未知的。在这种情况下,如果存在着大量的输入向量X(t),t =1,2,…,N,自相关矩阵RX 的近似值可由样本向量均值表示,即
这样,向量X 可变换为其特征向量的线性组合
定义一个归一化后的方差阈值,去除数据集中分量方差小于该方差阈值的数据,保留的即为主分量。
(二)主分量分析法的作用
主分量分析法有如下3 方面作用。
1.输入向量中每个主分量是初始变量的线性组合,所有分量相互正交,它们构成数据空间的正交基,因而无冗余信息。
2. 主分量的排列顺序是按照方差降序出现的,即最大方差的主分量最先出现。
3.在数据集中对方差贡献较小的那些主分量被删除。从数学角度看,主分量的思想在于降维,即从简化方差和均方差的结构来考虑。主分量的主体取决于变量正交基的维数,但通常情况下,前几个主分量的方差之和会超过原始数据方差总和的80%,因此,主分量分析既能降低变量的维数又不会显着丢失信息。
第一主分量为最大特征值对应的特征向量,它表示原始数据中变化最大的方向;第二主分量与第一主分量正交,表示对原始数据的贡献占第二位,依此类推。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。