多流式数据的聚类目的是找出具有相似演化方式的流式数据类,选取合适的相似性度量方法是需要解决的中心问题之一。
相似性度量方法主要可分为基于距离和基于相关系数的方法两类。例如,Euclidean 距离、Minkowski 距离、Manhatan 距离、Chebyshev 距离等为常用的基于距离的相似性度量方法。又如,数量积法、夹角余弦法、Pearson 法等为常用的基于相关系数的相似性计算方法。相关性作为数理统计的经典概念,基于相关系数的方法某种程度上可体现对象之间的相似程度。本书选取最常用的相关性系数计算方法Pearson 作为基础,给出流式数据环境下的滞后相关性系数计算过程。
给定任意的随机变量X ={x1,x2,…,xn}和Y ={y1,y2,…,yn},Pearson 相关性系数的定义为
相关性系数ρ 描述了两个变量间的相关性程度,-1≤ρ≤1。若ρ>0,表明两个变量正相关;反之,为负相关。
根据2.3.2 小节的分析可知,不同空间位置的多个断面或路段的交通状态之间具有异步传输特性。例如,交通监控中,具有上下游关系的交通流量变化相差ΔT 的时间间隔,但这两个时间序列会很相似。因此,不同断面的多个流式数据之间并不是一定在同一时间段内具有相似性的变化。本章将具有相差ΔT 时间的两个交通时间序列称为滞后相关性流式数据。通过将式(5.3)中相关运算的转化,可将其表示为[106,171](www.daowen.com)
多流式数据环境下,进行流式数据的趋势分析时较之早到达的数据,新到达的数据产生的影响更强。为了反映这一现象,给定一时间步t 以及衰减函数f(t)=-2-λt,基于衰减函数的任意两条流式数据Si和Sj之间的相关系数计算为
其中,f(t)随着时间t 是一个严格单调下降的衰减函数[111]。σ′i可计算为
需要说明的是,σ′j的计算与σ′i类似。
本节所给出的交通多流式数据的滞后相关性度量方法与文献[111]的有效性分析及验证类似,本书不再赘述。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。