理论教育 清洗异常数据的可用方案

清洗异常数据的可用方案

时间:2023-06-18 理论教育 版权反馈
【摘要】:时间序列中的缺失值可以认为是一种AO。在观测到的时间序列Zt中存在异常数据时,拟合残差序列et可以表示为式和分别表示了异常数据为AO和IO时,拟合残差序列与白噪声序列的关系。,en,AO的线性组合,其权值依赖于时间序列的结构。每个观测点的AO和IO的检验统计量如下:式中,t′为异常数据产生的时刻。

清洗异常数据的可用方案

时间序列中的噪声点可以分为信息异常值(Information Outliers,IO)、附加异常值(Additive Outliers,AO)和两种类型异常值的组合[15]。设Xt是无异常值的时间序列,Xt服从ARIMA(p,d,q),可表示为

式中,B为延迟算子;θ(B)和φ(B)分别为没有公共因子的平稳和可逆算子;at为相互独立、具有相同分布N(0,img)的白噪声序列,其中σa为含异常值的残差的标准差;∇=1-B,适用于所述符合第二和第三种规律的状态数据,即具有趋势性、周期性的时间序列。

用Zt表示观测到的时间序列,那么T时刻(脉冲发生时刻)包含噪声点的ARIMA(p,d,q)可表示为以下3种噪声点模型。

1.IO模型

式中,ω为异常值影响因子;img为脉冲函数。

IO模型影响了T时刻之后的所有观测值,其影响效应与Zt的模型形式有关,通过θ(B)/φ(B)所描述的系统动态特性而影响后面的所有观测序列。

2.AO模型

AO模型只影响该干扰发生的那一时刻T的序列值,而不影响该时刻之后的序列值。时间序列中的缺失值可以认为是一种AO。

3.多个异常值的混合模型

在通常情况下,一个被观测的时间序列可以在不同的时间点上受不同类型的异常值影响,因此得到下面两种异常值组合的模型:

式中,k为异常值个数;jω和vj分别为对应于不同异常值的影响因子和算子。

异常数据会影响时间序列拟合的精度,通过对拟合残差的分析可以将两类异常数据的影响量化。设时间序列拟合的残差为

式中,π(B)为表征残差影响的算子。

在观测到的时间序列Zt中存在异常数据时,拟合残差序列et可以表示为(www.daowen.com)

式(4-12)和(4-13)分别表示了异常数据为AO和IO时,拟合残差序列与白噪声序列的关系。将式(4-12)用矩阵的方式扩展开来,对长度为n的时间序列,满足

由于at是白噪声序列,根据式(4-14)由最小二乘理论算得异常值AO对时间序列拟合的影响为

同理,异常值IO对时间序列拟合的影响为

因此,在时刻T,IO对时间序列拟合影响的最好量化估计是残差eT,IO,而AO影响的最好量化估计是残差eT,AO,eT+1,AO,…,en,AO的线性组合,其权值依赖于时间序列的结构。

时间序列中异常值的存在将使得参数估计产生严重偏差,这些偏差根据异常值AO和IO对时间序列的影响(4-15)、(4-16),可以综合成异常数据的检验统计量,当检验统计量超过一定值时,可以判断其对应的时刻T存在异常值。每个观测点的AO和IO的检验统计量如下:

式中,t′为异常数据产生的时刻。

通过对输变电设备突发性故障的统计分析[16,17]可知,故障时其状态数据往往会产生水平迁移和快速变化的趋势,这种情况下状态数据用式(4-10)拟合时在某一时间点后的残差序列均远大于之前的值,因此可直接判断数据不可做清洗,只能通过时间序列干预模型进行拟合。状态数据的两种干预响应结构如下:

(1)反映水平迁移的干预响应结构为

式中,img为阶跃函数;b为延迟时间。

该结构说明输入的干预变量img,输出的状态量延迟b后做出反应且强度为ω,之后不再回到之前的状况。这类干预影响反映了状态量的水平迁移,如变压器对地绝缘故障时铁芯接地电流迅速变大而超过限值(100 mA)等。

(2)反映趋势改变的干预响应结构为

式中,δ为延迟算子的相应参数。

该结构常常用来表示趋势性状态量的趋势变化。如反映变压器固体绝缘的CO/CO2,在正常情况下其数值是缓慢上升的,当固体绝缘遭到破坏而导致劣化加速时,CO数值会呈快速上升趋势,时间序列的斜率比正常情况下大很多,在对CO的时间序列做一阶差分后符合该类干预影响结构。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈