理论教育 如何建立多因素预测模型

如何建立多因素预测模型

时间:2023-06-16 理论教育 版权反馈
【摘要】:其中,非线性模型主要包括了二次多项式模型和多因子及互作项模型。

如何建立多因素预测模型

建立模型是一种数学的思考方法,即运用数学的语言和方法,通过抽象、简化建立能近似刻画并“解决”实际问题的一种强有力的数学手段。数学建模具体的说就是将某一领域某个实际问题经过抽象、简化、明确变量和参数依据某种“规律”建立变量和参数的明确关系即数学模型,然后求解该问题,并对结果进行解释和验证。但数学建模的定量评估和预测又和实际会有或多或少的误差。

一般说来建立数学模型的方法大体上可分为两大类,一类是机理分析方法,一类是测试分析方法。具体来说,建立预测模型的方法有类比法、量纲分析法、差分法、变分法、图论法、层次分析法、数据拟合法、回归分析法和现代优化算法等,本节着重对回归分析法、偏小二乘法、误差逆传播算法、层次分析法、灰色预测法进行介绍。

一、回归分析法

回归分析法指利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的分析方法。根据因变量和自变量的个数分为:一元回归分析和多元回归分析;根据因变量和自变量的函数表达式分为:线性回归分析和非线性回归分析。

采用线性回归法和逐步回归法建立多因素预测模型,预测模型采用单因素实验和多因素实验检测数据计算,根据预测模型的参数检验结果确定3~5个基本可靠的预测模型,然后对上述3~5个预测模型进行交叉验证,依据交叉验证标准差(Relative Mean Squared Error of Cross Validation,RMSECV)筛选出最优预测模型,最后采用外部验证样品对预测模型的预测能力进行验证,具体步骤如下。

1. 确定预测目标、因变量和自变量

根据自变量与因变量的现有数据以及关系,初步设定回归方程,求出合理的回归系数,确定对预测对象有影响的因素。

2. 建立回归预测模型

依据自变量和因变量的历史统计资料进行计算,采用线性回归法和逐步回归法建立线性模型和非线性模型两种类型的数学模型。其中,非线性模型主要包括了二次多项式模型和多因子及互作项模型。模型建立包括两种情况,一种是将全部影响因素引入计算过程,建立线性和非线性数学模型;另外一种是根据单因素实验的结论,将对预测对象影响较小的因素删除后,采用剩余的影响因素建立线性和非线性数学模型。

3. 预测模型的检验

预测模型建立以后,分别进行预测模型各系数和预测模型的95%置信水平P检验,只有预测模型通过P检验后(P<0.05)才能确定该预测模型基本可靠。

4. 预测模型预测能力的内部验证

通过留一交叉验证法计算RMSECV [式(6-1)] ,评价模型的预测能力。RMSECV越小,模型预测能力越好;将模型的计算值(拟合值)和实际测定值(观测值)进行线性相关,对所建模型进行验证。二者相关线斜率、相关系数越接近1,模型预测能力越好;计算实际的测定值与模型的计算值之间的差异(线性模型中称为残差;非线性模型中称为拟合误差),对所建模型进行验证。二者差异越小,模型预测能力越好。

5. 预测模型预测能力的外部验证

为了验证预测模型的预测能力,验证样品的预测结果由式(6-2)计算:以预测模型计算出的验证样品结果除以预测模型计算出的基准样品结果,得出验证样品相对于基准样品的变化倍数,再乘以基准样品的实测值,即得出验证样品的校正预测值。计算验证样品的预测标准差(Relative Mean Squared Error of Prediction,RMSEP)[式(6-3)] 和平均预测相对偏差 [式(6-4)]来考察模型的预测能力。

式中 Ci——标准方法测得的值;

Ci——通过预测模型对各样本进行拟合所得拟合值;

C′——校正预测值;

n——校正集样品数;

m——预测集样品数。

二、偏最小二乘法

偏最小二乘方法(PLS)是近年来发展起来的一种新的多元统计分析法,集多元线性回归、主成分分析和相关性分析于一体,而且能够消除由于样本数远小于自变量数而引起的多重共线性,因而得到广应用。在P LS方法中用的是替潜变量,其数学基础是主成分分析。替潜变量的个数一般少于原自変量的个数,所以P LS特别适用于自变量的个数多于试样个数的情况。在此种情况下,也可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。此外,偏最小二乘在主成分回归的基础上更进了一步,在建模过程中既考虑仪器量测中的误差,又兼顾因变量中的误差影响。偏最小二乘模型并不追求因变量和自变量之间的直接关系和误差平方和最小,而是假定因变量和自变量之间存在着某种桥梁实现连接,即潜在的一些变量来沟通因变量和自变量。通过寻找这些隐变量,尽可能消除自变量和因变量中的误差影响,从而给出更为合理的解析结果,具体建模步骤如下。

1. 建立偏最小二乘模型

根据自变量与因变量的现有数据,初步建立偏最小二乘模型。

2. 偏最小二乘法模型的最优组分数

通过留一法(又称刀切法)获得偏最小二乘法模型的最优组分数。

3. 预测模型预测能力内部检验

通过校正样本构建PLS模型,由式(6-5)获得模型的校正样均方根误差(Relative Mean Squared Error of Calibration,RMSEC)来评价模型的预测能力。RMSEC越小,模型预测能力越好。

式中 Ci——标准方法测得的值;

Ci——通过P LS模型对各样本进行拟合所得拟合值;

n——校正集样品数。

4. 预测模型预测能力外部验证

为了验证预测模型的预测能力,由所建立的P LS预测模型计算验证样品的预测结果。通过计算验证样品的RMSEP(式6-6)来考察模型的预测能力。RMSEP值越小,表示预测值越接近标准值,拟合效果更好,越有利于模型的预测。

式中 Cj——预测样本的实测值;

Cj——通过建立的P LS模型对各样本进行拟合所得拟合值;

m——预测样样本数。

三、误差逆传播算法

人工神经网络是一种模拟人的神经系统而建立起来的非线性动力学模型,由大量的被称为神经元的简要信息处理单元通过高度并联、互联而组成,每个神经元从它邻近的神经元接受信息,同时也向邻近的其他神经元发出信息,整个网络系统的信息处理是通过神经元之间的相互作用来完成的,具有很强的自适应学习能力、并行信息处理能力、容错能力和非线性函数逼近能力,为解决具有多因素性、复杂性、随机性及非线性的问题提供了一种新的途径。

目前,已经发展了几十种神经网络,误差逆传播算法即BP(error back propagation neural network)算法,实现了多层网络设想,是近年来使用最多的神经网络之一。BP神经网络模型采用的是并行网络结构,包括输入层、隐含层和输出层(图6-1)。

图6-1 BP神经网络模型(www.daowen.com)

对于输入信号,先向前传播到隐含层节点,经作用函数后,再把隐节点的输出信号传播到输出节点,最后给出输出结果。该算法的学习过程由正向传播和反向传播组成。在正向传播的过程中,输入信息从输入层经隐含层逐层处理,并传向输出层。每一层神经元的状态只影响下一层神经元的状态。如果输出层得不到期望的输出结果,则转入反向传播,将误差信号沿原来的连接通道返回,通过修改各层神经元的权值,使得误差信号最小。BP神经网络算法流程(图6-2)主要包括以下几个步骤:

图6-2 BP神经网络算法流程

1. 确定样本数据

2. 数据处理

为了消除各变量量纲的影响,将各预测因子进行标准化,具体方法如下:

X′ =X -a/S

其中 a——平均值;

S——标准差。

3. BP神经网络模型的建立与分析

根据逐步回归分析的结果,选取与预测对象相关性较强的几个变量为预测因子,在DPS(Data Processing System)系统中,经反复调整,确定建立BP神经网络模型的参数。

4. BP神经网络模型的优化

依次输入训练样本集,先执行正相传播过程,计算出网络的输出模式,并将其与期望模式进行比较,如果存在误差就执行反相传播过程(①计算同一单元的误差;②修正权值和阈值;如果误差满足要求,则训练结束),否则,训练结束。

5. 预测准确度评价

以最大误差Si为指标优化模型参数,最大误差Si越小,表示预测值越接近标准值,拟合效果更好,越有利于模型的预测。

式中Ci——标准方法测得的值;

Ci——通过模型对各样本进行拟合所得拟合值;

CiVCimax-Ci——CiCimax-Ci中取较大值。

四、层次分析法

层次分析法,简称AHP(The analytic hierarchy process),是指将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。层次分析法是将决策问题按总目标、各层子目标、评价准则直至具体的备投方案的顺序分解为不同的层次结构,然后用求解判断矩阵特征向量的办法,求得每一层次的各元素对上一层次某元素的优先权重,最后再加权和的方法递阶归并各备择方案对总目标的最终权重,此最终权重最大者即为最优方案。层次分析法多应用于综合评价中,主要包括以下几个步骤:

1. 建立层次结构模型

将决策的目标、考虑的因素(决策准则)和决策对象按它们之间的相互关系分为目标层、准则层和方案层,绘出层次结构图

2. 构造判断矩阵

在确定各层次各因素之间的权重时,如果只是定性的结果,则常常不容易被别人接受,因而提出一致矩阵法,即不把所有因素放在一起比较,而是两两相互比较,对此时采用相对尺度,以尽可能减少性质不同的诸因素相互比较的困难,以提高准确度。在某一准则下各方案进行两两对比,并按其重要性程度评定等级,并按两两比较结果构造判断矩阵。

3. 特征向量求算

构造判读矩阵后,首先要计算矩阵中所有元素的和,其次各行元素的和进行归一化,最后计算权重向量Wk,得到该判读矩阵的特征向量,其计算公式:

其中,akj为判读矩阵a的第k行第j列的数值。分子为判读矩阵第k行数值之和,分母为判读矩阵所有元素之和。

判断矩阵的特征值λ是与Wk的函数:

4. 层次总排序

根据每一个层级判读矩阵的特征向量来计算各层对目标层的权值,并根据权重的大小,对影响供应评价的因素进行排序,权重较大的即为关键影响因素。

一致性检验在计算出每个判读矩阵的特征向量后,需要检验判读矩阵的一致性,以保证结果的精确性。通过计算一致性检验值CR来实现一致性检验。一致性检验的步骤如下:首先,计算一致性指标CI(式6-10)。

查表确定相应的平均随机一致性指标RI,最后计算一致性比例CR。

当CR>0.1时,则判断矩阵的一致性不符合要求,需要对其进行修正,当CR<0.1时,则判断矩阵的一致性可以接受。

5. 对方案层指标进行打分

可采用德尔菲法收集各个专家对供应商在方案层的各项指标进行打分,最终综合各专家的意见,确定最终指标分数。

6. 确定最终决策

将各决策的各项方案层指标分数与相应的指标相对于目标层的权重Wk相乘,从而得到各决策在该指标上相对于目标层的分数,最后将所有指标的分数相加,得到该决策的综合得分。根据分数的高低进行排序,分数越高标明该决策越好,可作为最终决策。

五、灰色预测法

灰色预测法是一种对含有不确定因素的系统进行预测的方法。灰色理论认为,灰色系统的数据尽管是杂乱的,但仍有规可循,通过分析数据的变化过程来做出科学预测。在灰色理论中,将杂乱的原始数据整理成规律性较强的生成数列,再通过一系列计算,从建立一阶单变量微分方程模型即GM(1,1)模型。

灰色预测常见类型包括:灰色时间序列预测、畸变预测、系统预测、拓扑预测四类。灰色预测需要数据量少,适合预测波动性较小的数据,但对与波动性较大的数据,预测误差很大。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈