理论教育 Origin9.1科技绘图及数据分析:主成分分析

Origin9.1科技绘图及数据分析:主成分分析

时间:2023-11-19 理论教育 版权反馈
【摘要】:下面结合实例具体介绍用Origin进行主成分分析。试采用主成分分析方法分析蛋白质来源与这些欧洲国家之间的关系。根据图12-84出现的凸出点,选择主成分数量为“4”。由于主成分1和主成分2通常起主导作用,因此选择主成分1和主成分2分别为X轴和Y轴绘图。图12-84 “Scree plot”图图12-85 设置好的对话框单击“OK”按钮,进行主成分分析,得到主成分分析报告,如图12-86所示。

Origin9.1科技绘图及数据分析:主成分分析

主成分分析方法是研究将彼此相关的变量综合成一个(或少数几个)主成分,而该主成分指标能在最大程度上反映观测变量所提供的信息的一种方法。

下面结合实例具体介绍用Origin进行主成分分析。试验数据为25个欧洲国家的9种食物的蛋白质消耗量,存放在“Protein Consumption in Europe.dat”数据文件中。试采用主成分分析方法分析蛋白质来源与这些欧洲国家之间的关系。能否采用主成分分析方法对数据进行分析,须对数据进行预分析,根据预分析结果,决定是否采用。

1.数据预分析

(1)导入“Origin9.1\Samples\Statistics\Protein Consumption in Europe.dat”数据文件,如图12-82所示。工作表A(X)列为25个欧洲国家名称,B(Y)~J(Y)列为25个国家消耗9种食物蛋白质的数据。

978-7-111-48800-2-Chapter12-91.jpg

图12-82 “Protein Consumption in Europe.dat”工作表

(2)选择菜单命令【Statistics】→【Multivariate Analysis】→【Principal Component Analysis】,打开【Statistics/Multivariate Analysis:pca】对话框。接受默认值,单击“OK”按钮

(3)打开新创建的PCA1工作表中的“Eigenvalues of the Correlation Matrix”表,表中前4个成分的贡献占约86%,而其余每个成分的贡献约小于5%,如图12-83所示。因此,得出该试验数据适合采用主成分分析方法来分析。

978-7-111-48800-2-Chapter12-92.jpg

图12-83 PCA1工作表中的“Eigenvalues of the Correlation Matrix”表

(4)双击新创建的PCA1工作表中的“Scree plot”图例,得到“Scree plot”图,如图12-84所示。根据图中的本征值(Eigenvalues)出现的凸出点(Elbow),确定合适的主成分数量。根据图12-84出现的凸出点,选择主成分数量为“4”。

2.主成分分析

(1)单击图12-84中左上角的绿色锁978-7-111-48800-2-Chapter12-93.jpg,在打开的菜单中选择菜单命令“Change Parameters”,再次打开【Statistics/Multivariate Analysis:pca】对话框。

(2)在【Statistics/Multivariate Analysis:pca】对话框的“Settings”栏中的“Number of Components to Extract”中输入“4”,在“Plot”栏中选中“Scree Plot”“Loading Plot”和“Biplot”复选框。由于主成分1和主成分2通常起主导作用,因此选择主成分1和主成分2分别为X轴和Y轴绘图。设置好的【Statis-tics/Multivariate Analysis:pca】对话框如图12-85所示。

978-7-111-48800-2-Chapter12-94.jpg

图12-84 “Scree plot”图

978-7-111-48800-2-Chapter12-95.jpg(www.daowen.com)

图12-85 设置好的【Statistics/Multivariate Analysis:pca】对话框

(3)单击“OK”按钮,进行主成分分析,得到主成分分析报告,如图12-86所示。

从主成分分析报告的相关系数矩阵(Correlation Matrix)表中可以看出,变量高度相关,很多都大于0.3,因此可认为采用主成分分析方法是合适的。主成分分析报告的萃取特征向量(Extracted Eigenvectors)表提供了主成分与原组员间的线性关系式。根据萃取特征向量表,可得出4个主成分与原组员的关系式分别为式(12-9)~式(12-12)。

PC1=0.30261×RedMeat+0.31056×WhiteMeat+0.42668×Eggs+0.37773×Milk

+0.13565×Fish-0.43774×Cereals+0.29725×Starch-0.42033×Nuts-

0.11042×FruitsVegetables (12-9)

PC2=-0.05625×RedMeat-0.23685×WhiteMeat-0.03534×Eggs-0.18459×Milk+0.64682×Fish-0.23349×Cereals+0.35283×Starch+0.14331×Nuts+0.53619×FruitsVegetables (12-10)

PC3=-0.29758×RedMeat+0.6239×WhiteMeat+0.18153×Eggs-0.38566×Milk-0.32127×Fish+0.09592×Cereals+0.24298×Starch-0.05439×Nuts+0.40756×FruitsVegetables (12-11)

PC4=0.64648×RedMeat-0.03699×WhiteMeat+0.31316×Eggs-0.00332×Milk-0.21596×Fish-0.0062×Cereals-0.33668×Starch+0.33029×Nuts+0.46206×FruitsVegetables (12-12)

978-7-111-48800-2-Chapter12-96.jpg

图12-86 主成分分析报告

双击主成分分析报告中的“Loading Plot”图例,得到图12-87a所示图形。从图中可得到主成分1和主成分2与原组员的关系。红肉(Red Meat)、鸡蛋(Eggs)、牛奶(Milk)和白肉(White Meat)对主成分1具有相同的贡献,而鱼类(Fish)、水果蔬菜(Fruit and Vegetables)对主成分2具有相同的贡献。

双击主成分分析报告中的“Biplot”图例,得到图12-87b所示图形。通过数据读取工具978-7-111-48800-2-Chapter12-97.jpg(Data Reader)可进一步分析这些欧洲国家的蛋白质来源的差异。例如,用数据读取工具978-7-111-48800-2-Chapter12-98.jpg单击图12-87b所示图形中的数据点得到该点数据为葡萄牙(Portugal)的,该国主要蛋白质来源主要为水果和蔬菜(Fruit and Vegetables)。

978-7-111-48800-2-Chapter12-99.jpg

图12-87 “Loading Plot”图和“Biplot”图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈