设备状态信息获取方式的多样性及采集间隔的不确定性使得各状态量时间序列的参数是未知的,异常数据产生的时刻T也是不确定的,因此时间序列模型的搭建、模型参数估计、异常数据类型识别是必不可少的数据清洗步骤。由于异常数据的存在将使时间序列参数的估计产生偏差,因此,针对噪声点出现时刻与个数未知、模型参数没有预先给定的情况,使用迭代检验的方法对观测时间序列进行数据清洗,共分为7个步骤,如图4-2所示。
图4-2 迭代检验法数据清洗的步骤
步骤1:假定不存在异常值,对观测序列Zt建立时间序列模型,并由所估计的模型计算初始残差,即
式中,为初始拟合的残差序列;的初始值;分别为初始拟合的平稳和可逆算子。
残差方差的初始估计为
步骤2:观测拟合残差序列,若从某时间点开始残差序列呈现水平迁移或快速变化,并远大于之前的残差值,则原始时间序列需采用干预模型拟合,跳至步骤7,否则跳至外循环。
步骤3:在外循环中,利用已估计的模型,对t=1,2,…,n,计算每个观测点的检验统计量,定义,这里Tmax为最大值发生的时刻。当Tmaxλ>C时(C为预先设定的常数,通常取3和4之间),则说明存在异常数据,进入内循环修正数据。
步骤4:在内循环中修正数据。
当时,可以确定在时刻Tmax存在异常数据AO,其对模型拟合的影响可通过式(4-15)求得。通过式(4-7)修正原始时间序列数据,得到新的时间序列为
并由式(4-12)修正得到新的残差为(www.daowen.com)
当时,可以确定在时刻Tmax存在异常数据IO,其对模型拟合的影响可通过式(4-16)求得。 通过式(4-5)修正数据,则IO的影响可以消除,即
并由式(4-13)修正得到新的残差为
使用迭代的方法识别并修正时间序列所有的噪声点。在修正后的残差和残差标准差的基础上再次计算每个观测点的检验统计量,并重复步骤4,直到所有异常数据都被识别出来。当λTmax<C时,则说明此步外循环已修复异常数据,内循环结束。
步骤5:假设在内循环结束后有K个异常数据在时刻T1,T2,…,Tk被识别出,其影响分别为,同时异常数据被修正而得到新的时间序列。此时重新回到步骤3,进入外循环,根据式(4-2)重新估计该时间序列参数,并根据式(4-22)得到时间序列模型残差为
根据重新估计的时间序列参数计算检验统计量,当λTmax<C时外循环结束,当λTmax>C时重新进入内循环,直到所有的异常数据都被修复。
步骤6:在最后一次外循环结束时,针对修正了噪声点的时间序列Zi进行联合估计,得到拟合异常值的模型,即
式中,参数是在最后一次迭代中得到的,该联合估计的目的是验证数据清洗的数学模型是否与真实数据接近,即拟合残差是否属于可接受范围。此时,将式(4-30)中异常时间点的数据作为修正的数据,替代原始数据,而其他时间点仍保留原始数据。
步骤7:使用式(4-19)和(4-21)的时间序列干预模型拟合原始数据,并求出干预点发生的时间。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。