理论教育 预测需水:理论与方法探析

预测需水:理论与方法探析

时间:2023-06-17 理论教育 版权反馈
【摘要】:3.4.4.3水资源需求预测的影响因素影响水资源需求的因素较多,除预测方法外,还有一些非技术性的因素影响着预测结果的准确性,如资料的可靠性、节水的影响以及经济布局与产业结构调整的影响等。

预测需水:理论与方法探析

3.4.4.1 水资源需求预测概述

水资源需求预测指在未来某一发展水平下某时段所需求的水量,主要包括各行业、部门、地区的需水量。在水资源开发和利用领域,需水预测是人们始终关注的问题,它反映各区域社会发展对水资源的需求态势,也是资源配置、产业布局、供水决策水利投资、城市规划的重要参考依据,对于社会、经济环境的协调发展、重大水利工程的方案选择和实施,乃至对判定市场经济条件下的用水管理模式,均有重大意义。

3.4.4.2 水资源需求预测的基本原则

水资源需求涉及范围较广,是一个多学科交叉应用的复杂问题,具有多用水层次、多用水部门等特点,为确保需水预测结果的可行性,必须遵守统一的规则。

(1)以各规划水平年社会经济发展指标为依据,贯彻可持续发展的原则,统筹兼顾社会、经济、生态、环境等各部门发展对水的需求。

(2)考虑水资源紧缺对需水量增长的制约作用,全面贯彻节水的方针与规划。

(3)考虑市场经济体制、经济结构调整政策导向和科技进步对未来需水的影响。

(4)重视现状基础调查资料,结合历史情况进行规律分析和合理的趋势外延,力求需水预测符合各区域特点。

(5)多方法组合预测,保证各预测方法在其对应的需水预测范围内的有效性。

3.4.4.3 水资源需求预测的影响因素

影响水资源需求的因素较多,除预测方法外,还有一些非技术性的因素影响着预测结果的准确性,如资料的可靠性、节水的影响以及经济布局与产业结构调整的影响等。

3.4.4.4 水资源需求预测的步骤

水资源需求预测跟其他任何一种预测一样,其过程大体可分为两个阶段。第一阶段是归纳过程:从搜集与预测有关的资料开始,经过对用水资料进行分析、处理,到用模型的形式刻画分析水资源需求的基本演变规律。第二阶段是演绎或推论过程:利用得到的基本演变规律,根据对未来条件的了解和分析,推测(或计算)出水资源需求在未来期间所再现的状况。在这个过程中,需要综合考虑并分析各种确定的和不确定的因素对水资源需求可能造成的影响,采用多种方法加以处理和修正,进行必要的检验和评价,然后才能得到一个可供决策参考的最终预测结果。

预测工作大致包括七个步骤:

(1)选定预测目标。预测是为决策服务的,水资源需求预测就要为水资源规划与管理服务,所以,要根据管理者所提出的要求去确定预测的目标。

(2)资料的搜集处理。资料是进行预测的依据,特别是水资源需求预测,应根据预测目标的具体要求,搜集预测所需要用到的各种资料。其中包括水资源需求的历史资料,对需水量发展变化起影响作用的各种因素的历史(包括目前)资料,以及各种影响因素(包括间接影响因素)在预测所要说明的未来期间内可能再现的状况(这有时也需用预测方法去估测)。

(3)选择预测技术。预测技术的种类很多,对于每个预测项目都可用多种预测技术求得预测结果。实际工作中,主要是根据水资源规划或管理工作对预测结果的要求,结合开展预测工作的条件和环境,根据经济、方便、效果好的原则,去合理地选择预测技术。

(4)建立预测模型。预测模型是对预测对象发展规律的近似模拟。因此,在资料的搜集和处理阶段,当搜集到足够的可以建立模型的资料时,应采用一定的方法加以处理,使它们能够反映出需水量未来发展的规律性。然后利用选定的预测技术确定或建立可用于预测的模型。

(5)评价模型。由于模型是利用历史资料得出的,它们反映的是事物发展的历史规律,因此,应根据搜集到的有关未来情况的资料,对得到的预测模型加以分析和研究,评价其是否能够应用于对未来的需水预测。

(6)应用模型进行预测。根据搜集到的水资源需求预测时段的有关资料,利用经过评价所确定的预测模型,计算或推测出预测对象发展的未来结果。这种计算或推测是在假设过去和现在的规律能够延续到未来的条件下进行的,即认为预测对象在预测期间内的发展将不会发生大的异常变化。

(7)分析预测结果。利用模型得到的预测结果有时并不一定与事物发展的实际结果相符。这是由于建立的模型是对实际情况的近似模拟,有的模型模拟效果可能好些,有的模型模拟效果可能差些。因此,每次得到预测结果之后,都应对其加以分析和评价。

3.4.4.5 水资源需求预测方法概述

下面介绍几种方法在水资源需求预测中的应用。

3.4.4.5.1 灰色预测模型

时间序列预测是采用趋势预测原理进行的,然而时间序列预测存在两个问题:一是时间序列变化趋势不明显时,很难建立起较精确的预测模型;二是在系统按原趋势发展变化的假设下进行预测的,因而未考虑对未来变化产生影响的各种不确定因素。

为克服上述缺点,邓聚龙教授引入了“灰色因子”的概念,采用 “累加”和 “累减”的方法创立了灰色预测理论。

(1)GM (1,1)模型的基本原理。当一时间序列无明显趋势时,采用累加的方法可生成一趋势明显的时间序列。

如时间序列X(0)= {32,38,36,35,40,42}的趋势并不明显,但将其元素进行“累加”所生成的时间序列X(1)= {32,70,106,141,181,223},则是一趋势明显的数列,按该数列的增长趋势可建立预测模型并考虑灰色因子的影响进行预测,然后采用“累减”的方法进行逆运算,恢复原时间序列,得到预测结果,这就是灰色预测的基本原理。

(2)GM (1,1)模型的建立方法和步骤。

设原始时间序列为

其累加生成序列为

按累加生成序列建立的微分方程模型为

确定了参数α和μ后,按此模型递推,即可得到预测的累加数列,通过检验后,再累减即得到预测值。

其步骤如下:

1)由原始序列X(0)按下式计算累加生成序列X(1)

2)对x(1),采用最小二乘法按下式确定模型参数。

其中

4)采用残差分析法进行模型检验。

5)用模型进行预测。通过上述模型预测累加生成序列X(1)的预测值x^(1),并利用累减生成法将其还原,即可以得到原始序列X(0)的预测值x^(0),如果满足灰因子条件则完成预测。

(3)模型检验。

GM (1,1)模型有残差检验法、后验差检验法和关联度检验法。残差检验法是指按所建模型计算出累加序列,再按累减生成法还原,还原后将其与原始序列X(0)相比较,求出两序列的差值即为残差,通过计算相对精度以确定模型精度;后验差检验法是指按所建模型先分别求出原时间序列和参差序列的均值和方差,再计算两者的方差比及预测误差的小概率。

如果相对精度均满足要求精度,则模型通过检验;如果不满足要求精度,可通过上述残差序列建立残差GM (1,1)模型对原模型进行修正。残差模型GM (1,1)可提高原模型的精度。

残差检验

a.绝对误差

相对误差

b.联度检验

其中

ρ为取定的最大差的百分比,一般可取0.5,即50%。

c.检验

先求原时间序列的均植和方差

再求残差序列的均值和方差

由上面结果可求方差比

预测误差小概率P为

根据以上求得的各参数可划分级数来确定所建模型的精度等级。

综上所述,GM (1,1)模型实质上是采用线性化方法建立的一种指数预测模型。因此,当系统呈指数变化时,预测精度最高。

3.4.4.5.2 统计学习理论预测模型

统计学习理论是研究小样本统计估计和预测的理论,主要内容包括四个方面:①经验风险最小化准则下统计学习一致性的条件;②在这些条件下关于统计学习方法推广性的界的结论;③在这些界的基础上建立的小样本归纳推理准则;④实现新的准则的实际方法算法

(1)支持向量机理论。支持向量机SVM (Support Vector Machine)是在统计学习理论基础上发展起来的,基于1909年Mercer核定理的一种新的机器学习方法。支持向量机又称为支持向量网络,具有理论完备、适应性强、全局优化、训练时间短、泛化性能好等优点,已经成为目前国际、国内研究的热点。支持向量机的核心内容是1992年才开始提出,到目前为止它是统计学习理论最成功的实现,且仍处于不断发展阶段。

SVM方法是从线性可分情况下的最优分类面提出的。所谓最优分类面,就是这样的分类超平面,它不但能够将所有训练样本正确分类,而且使训练样本中离分类面最近的点到分类面的距离(定义为间隔)最大。通过使间隔最大化来控制分类器复杂度,进而实现较好的推广能力。在线性不可分的情况下,有所谓的广义最优分类面问题,即在追求最大化分类间隔的同时最小化错分样本的数目。

SVM是从线性可分情况下的最优分类面发展而来的。设给定训练样本集{(x1,y1),(x2,y2),…,(xl,yl)},其中xi∈Rd,i=1,…,l是l个d维向量,yi∈ {1,-1}或yi∈ {1,2,…,k}或yi∈R,i=1,…,l。通过训练学习寻求模式f (x),使得不但对于训练样本集满足yi=f(xi),而且对于预测数据集{xl+1,xl+2,…,xm}同样能得到满意的对应预测值yi。模式f(x)称为支持向量机。当yi∈{1,-1}时为最简单的两类分类,yi∈{1,2,…,k}时为k类分类,yi∈R时为函数估计,即回归分析。

图3.3 可分情况下的最优分界面

对给定训练样本集,假如训练样本集是线性可分的,则机器学习的结果是一个超平面,二维情况下是直线或称为判别函数,该超平面可以将训练样本分为正负两类。

若超平面w·x+b能将训练样本分开,则有

适当调整w和b,可将式(3.16)、式 (3.17)改写成

根据统计学理论,最优界面不但能将两类样本正确分开,而且能使分类间隔最大。如图3.3所示,实心点和空心点代表两类样本,H 为分界面,H1和H2分别各类样本中距分界面最近的样本且平行于分界面的面,它们之间的距离称为分类间隔。

所谓最优分类面就是要求分类面不但能将两类样本正确分开(训练错误率为0),而且使分类间隔最大。虽然图中虚线也能将两类样本分开,但它的分类间隔比H 小。

分界面w·x+b的分类间隔为

由式(3.20)、式 (3.21)可得

这样,最大化分类间隔d (w,b)问题就转化为在约束条件式 (3.20)下最小化‖w‖2/2。由Lagrange乘子法可得,问题等价于在约束条件

下最小化问题

每个Lagrange乘子αi对应一个训练样本xi。对应的αi>0的训练样本称为 “支持向量”。最后得到的分类函数为

式中 q——支持向量的个数。

如果训练样本线性不可分,上述的优化问题将变得无解。对于非线性分类问题,理论上应将输入空间通过某种非线性映射,映射到一个高维特征空间,在这个空间中存在线性的分类规则,可以构造线性的最优分类超平面。

由前面论述应知,线性的SVM 是以样本间的欧氏距离大小为依据来决定划分结构的。非线性的SVM中以卷积核函数代替内积后,相当于定义了一种广义的距离,以这种广义距离作为划分依据。并不一定所有的学习机器都要以样本间距离作为划分依据,但是对于很多问题来说,把距离近的样本划分在一起确实是可行的(可以想见距离近的样本会有更多的共同特征)。

在上面的问题中只涉及训练样本之间的内积运算,这样,在高维空间实际上只需进行内积运算,可以用原空间中的函数实现,甚至没有必要知道变换的形式。根据泛函的有关理论,只要一种核函数满足Mercer条件,它就代替某一变换空间中的内积。因此,在最优分类面中采用适当的内积K (xi,xj)函数就可以实现某一非线性变换后的线性分类,就可实现非线性SVM,而这里并不需要直接进行非线性变换,计算复杂度没有增加。

核函数存在性定理表明:给定一个训练样本集,就一定存在一个相应的函数,训练样本通过该函数映射到高维特征空间的相是线性可分的,对一个特定的核函数,给定的样本集中的任意一个样本都可能成为一个支持向量。这意味着在一个支持向量机下观察到的特征在其他支持向量机下其他核函数并不能保持。因此,对解决具体问题来说,选择合适的核函数是很重要的。常见的满足Mercer条件的核函数有:

多项式核函数

高斯径向基函数

Sigmoid函数

此时的分类函数为

这就是支持向量机,其基本思想概括起来就是通过非线性变换将输入空间变换到一个高维乃至于无穷维的特征空间,使在特征空间中可以通过核函数展开定理来解决输入空间中的高度非线性分类和回归等问题。

(2)最小二乘支持向量机。最小二乘支持向量机 (LSSVM)是支持向量机的一种,它是将标准支持向量机算法中的不等式约束转化为等式约束而得到的。对非线性回归问题,设训练样本为

非线性回归函数为

对于最小二乘支持向量机,优化问题变为

求解式(3.33)优化问题,可以引入Lagrange函数

式中 αi——Lagrange乘子;

常数γ>0,它控制对超出误差的样本的惩罚程度。

最优的αi和b可以根据KKT (Karush Kuhn Tucker)条件得到

由式(3.35),优化问题转化为求解如下的线性方程

其中,K (xi,xj)为核函数。

从而得到非线性回归函数的解为

由于γ>0为一常数,不论误差的大小,它对超出误差的样本的惩罚程度是不变的。这样对超出误差的极端样本(较大的和较小的样本)的惩罚力度较弱,使得训练精度和推广能力的改善能力欠佳。

(3)改进的最小二乘支持向量机。将式(3.33)的优化泛函改进为如下形式

式中 νi=yi/ymax——峰值识别系数;

λi——νi的放大系数。

同样,求解式(3.38)优化问题,引入Lagrange函数

最优的αi和b根据KKT (Karush Kuhn Tucker)条件得到

式 (3.40)问题可转化为求解如下的线性方程

得到非线性回归函数的解为(www.daowen.com)

称为峰值识别最小二乘支持向量机模型(λiνi-SVM模型)。

SVM是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。

由于有较为严格的统计学习理论作保证,应用SVM 方法建立的模型具有较好的推广能力。SVM方法可以给出所建模型推广能力的严格的界,这是目前其他任何学习方法所不具备的。建立任何一个数据模型,人为的干预越少越客观。与其他方法相比,建立SVM模型所需要的先验干预较少。

但核函数的选定及有关参数的优化、模型训练和测试速度等问题仍是目前尚未很好解决的问题。SVM通过核函数实现到高维空间的非线性变换,所以适合于解决本质上非线性的分类、回归和密度函数估计等问题。

(4)基于混沌优化的最小二乘支持向量机需水预测模型。针对支持向量机算法存在的参数优化、训练和测试速度等问题,我们采用变尺度的混沌优化方法与峰值识别最小二乘支持向量机相结合,建立了一种基于混沌优化的峰值识别最小二乘支持向量机 (C-λiνi-SVM)预测算法。其具体步骤如下:

1)数据的预处理。我们采用比例压缩法,将需水历史数据作为训练样本数据变换为[0.1,0.9],即

2)选择满足Mercer条件的核函数K (Xi,Xj)。

3)用变尺度混沌优化算法确定λiνi-SVM模型的参数(a,b)T

选择下式产生的混沌变量来进行优化搜索

优化问题为

具体步骤为:

A.初始化

混沌变量迭代标志k=0,细搜索标志r=0;

当前最优解f*(z1,z2,…,zn)设为一个较大的数。

B.映射到优化变量取值区间:

E.重复第B、C、D,直到f*(z1,…,zn)保持不变为止;

F.尺度变换:

I.重复第H直到f*(z1,…,zn)保持不变为止;

J.r=r+1,减小δ的值,重复第F~I步若干次后结束寻优计算。此时得到的mz*i即为算法得到的最优变量,f*(z1,…,zn)为最优解,对应的 (a,b)T即为预测模型的参数。

4)由λiνi-SVM预测模型:

对学习样本和预测检验样本进行拟合和预测。

5)计算预测的相对平均误差(p=N-n)

3.4.4.5.3 可拓聚类预测模型

(1)可拓学理论。可拓学是由我国著名学者蔡文研究员于1983年创立的一门系统科学、思维科学和管理科学,是贯穿于自然科学和社会科学而应用较广的横断科学[1]。主要研究不相容问题的转化规律与解决方法,以物元为基元建立模型来描述矛盾问题,以物元变换作为解决矛盾问题的手段,并在可拓集合中,通过建立关联函数对事物的量变和质变过程进行定量描述。

聚类分析是对给定的样本进行数量化的分类的一种方法,在预测分析中,如果将每一类作为一种预测结果,就可以应用聚类分析方法进行预测。可拓集合和物元概念能根据事物关于特征的量值来判断事物属于某集合的程度,而关联函数能使聚类精细化、定量化,从而为解决从变化的角度进行聚类分析的问题提供了途径,可拓聚类分析就是考虑到聚类样本之间的可拓关系而进行聚类的方法。

(2)可拓预测的建模机制。可拓聚类预测方法首先通过聚类分析划分集合P的若干子集,构造他们的经典域物元和节域物元,并确定待测物元;然后根据关联函数值确定待测样本隶属于哪个子集,从而得到聚类预测结果。

1)确定经典域与节域。以事物、参评因素和因素指标等级特征量值根据规定的评价等级数值范围组成事物、参评因素、等级特征量同征物元三元体,如式(3.60)。

式中 R0——同征物元R1,R2,…,Rm的同征物元体;

Nj——所划分的第j个评价类别;

Ci——第i个评价指标;

(anm,bnm)——分别为Nm关于指标Cn所规定的量值范围,即各类别关于对应的评价指标所取的数据范围经典域。

式中 P——表示类别的全体;

Vnp——P关于Cn所取的量值的范围,即P的节域,且Vnp= (anp,bnp),Vnm∈Vnp(i=1,2,…,m)。

2)确定待评物元。对待评的事物q,把所收集到的指标数据或分析计算结果用物元

式中 Rq——事物q的待评物元;

q——表示待评事物;

vi——事物q关于指标Cn的量值,即待评事物的指标数据。

4)关联度计算及等级评定。确定待评事物q关于各类别等级j的关联度为

其中

计算出待评事物q关于等级j的关联度

根据最大隶属原则,在Kj(p)中寻求最大关联度函数值为

则称j 0为q的级别变量特征值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈