偏最小二乘法(Partial Least Squares)分析是一种新型的多元统计数据分析方法,在处理多重共线性数据方面具有较大的优势。偏最小二乘法分析是OriginPro9.1的新增功能。下面结合实例,具体介绍用Origin进行偏最小二乘法分析。试验光谱数据(MixtureSpectra.dat)共有25组(编号E1~E25),其中E1~E20为20个同类型样品在不同波长(v1~v43)的发射强度和对应的3种化合物(comp1,comp2,comp3)的含量,E21~E25为同类型样品在不同波长(v1~v43)的发射强度。试验数据符合多重共线性,试采用偏最小二乘法分析方法,确定该光谱数据样品在不同波长的发射强度与3种化合物(comp1,comp2,comp3)含量的预报模型。采用试验光谱数据中20(编号E1~E20)个样品的数据进行建模,余下的5(编号E21~E25)个样品的数据进行预测。
1.偏最小二乘法回归建模
(1)导入“Origin9.1\Samples\Statistics\MixtureSpectra.dat”数据文件。该工作表A(X)列为试样编号列,B(Y)~C42(Y)列为25个试样在不同波长(v1~v43)下的发射强度,C43(Y)~C45(Y)列为对应的20个试样3种化合物(comp1,comp2,comp3)含量。
(2)选中“MixtureSpectra.dat”工作表中B(Y)~C42(Y)列,选择菜单命令【Statistics】→【Multivariate Analysis】→【Partial Least Squares】,打开【Statistics/Mult-ivariate Analysis:pls】对话框。
(3)此时,选中工作表中的列自动添加为自变量。单击【Statistics/Multivariate Analysis:pls】对话框中“Independent Variables”右边的三角形,选择“Select Columns”。打开【Column Browser】面板,单击【Column Browser】下面板中右上角按钮,将数据范围改设为从“1”到“20”,如图12-100所示。单击“De-pendent Variables”右边的切换按钮,将工作表中的C43~C45列输入,再次单击切换按钮,回到【Statistics/Multivariate Analysis:pls】对话框。
(4)由于数据v1~v43已经为标准化数据,在“Settings”栏中去掉“Scale Variables”复选框。为获得优化模型的因素,选择“Cross Validation”复选框。在“Plots”栏中选中“Variable Importance Plot”“X Loadings Plot”“Y Loadings Plot”“X Scores Plot”“Y Scores Plot”和“Diagnostics Plots”复选框。设置好的【Statis-tics/Multivariate Analysis:pls】对话框如图12-101所示。
(5)单击“OK”按钮,进行偏最小二乘法回归计算,得到偏最小二乘法回归工作表(PLS1)。
2.偏最小二乘法模型分析
下面用偏最小二乘法回归工作表(PLS1)中的交叉验证表、诊断图、变量重
图12-100 【Column Browser】面板设置
图12-101 设置好的【Statistics/Multivariate Analysis:pls】对话框
要性图、系数图、方差解释和负荷图对建立的模型进行分析。
图12-102 交叉验证(Cross Validation)表
打开偏最小二乘法回归工作表(PLS1)中的交叉验证(Cross Validation)表,根据Root Mean PRESS最小为最优因数原则,确定最优因数为4,如图12-102所示。
偏最小二乘法回归工作表中的诊断图(Diagnostics Plots)为残差图,用于判断模型的质量,如图12-103所示。诊断图由4个图组成,其中图1(Predicted values-Ac-tual values)表明模型能很好地与第一个化合物(comp1)拟合;图2和图3(Predicted values-Residual)显示残差在“0”附近随机均匀分布,表明该拟合过程无明显漂移。图4为P-P图,用于检验方差是否正态分布。图中数据几乎在同一直线上,因此可认为该方差的均值属于正态分布。
变量重要性图(Variable Importance Plot,VIP)总结了v1~v43量的贡献率,如图12-104所示。如果变量回归系数小或VIP值小,则可考虑在模型中删去该参数。例如,图12-104a中显示v41~v43的VIP值很小。同理,在系数图(Coefficients Plots)中,也显示v41~v43的值很小,如图12-104b所示。
方差解释(Variance Explained)表给出了4个因数在X和Y的方差比例,如图12-105所示。表中因数1(Factor1)对X的影响为71.36%,对Y的影响为75.6%;因数2(Factor2)对X的影响为23.99%,对Y的影响为22.14。因数1和因数2对X和Y的影响作用很大,超过了95%。(www.daowen.com)
图12-103 诊断图
图12-104 变量重要性图和系数图
图12-105 方差解释表
负荷图(Loadings Plot)揭示了X变量和Y变量与因数1(Factor1)和因数2(Factor2)之间的关系。图12-106所示为“Y-Loadings Plot”负荷图,该图显示3个化合物对因数1(Factor1)和因数2(Factor2)的负荷是不相同的。
同理,可以研究“X-Loadings Plot”负荷图。因此,总体可认为该模型拟合效果较好。
图12-106 “Y-Loadings Plot”负荷图
3.偏最小二乘法模型应用
通过建立的模型,根据E21~E25样品不同波长的光谱强度数据,对样品中的化合物进行预测。
(1)单击偏最小二乘法回归工作表(PLS1)中左上角的绿色锁,在打开的菜单中选择菜单命令“Change Parameters”,打开【Statistics/Multivariate Analysis:pls】窗口。
(2)在“Input Data”栏中选中“Predict Responses”复选框。单击“Indepen-dent Variables for Prediction”右边的切换按钮,输入“Mixture-Spectra”工作表中的B~C42列,再次单击切换按钮,回到【Statistics/Multivariate Analysis:pls】对话框。单击“Independent Variables for Prediction”右边的三角形,在弹出的菜单中选择“Se-lect Columns...”,进入【Column Browser】窗 口。单 击【ColumnBrowser】窗口下面板右上角的按钮,选择预测数据范围为从“21”到“25”,单击“OK”按钮。设置好的【Statistics/Multiva-riate Analysis:pls】对话框如图12-107所示。
图12-107 设置好的【Statistics/Multivariate Analysis:pls】对话框
(3)单击“OK”按钮,进行偏最小二乘法回归预报计算,得到偏最小二乘法回归预报工作表(PLSResults1),如图12-108所示。表中数据为采用E21-E25组样品在不同波长的发射强度对其采用3种化合物(comp1,comp2,comp3)的预报结果。
图12-108 偏最小二乘法回归预报工作表
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。