为了测试STClu 算法应用于具有时空特性的交通多流式数据聚类时的效果,本实验的实测数据集采用交通状态监控中所获取的实测数据进行验证。该交通数据集为重庆市某高速公路24 h×7 d 的道路交通状态记录。本实验选择了重庆北碚隧道、绕城路段、西山坪隧道、渝武路段的从2014 年5 月12 日至2014 年5 月18 日共7 天的由固定检测器所获取的交通流式数据。为了测试不同条件下STClu 算法的实际效果,本实验中将所获取的交通数据集划分为以下3 类:
(1)实测数据集1
除去异常检测器所检测的数据以及所检测到的异常数据,以每一个检测器检测的交通流量数据为一条流式数据,该数据集包括了42 个不同来源的流式数据,每条流式数据包括2 016 个数据记录。本实验的任务是根据不同固定检测点所检测的不同方向以及不同所检测的不同路段交通状态参数,将42 条不同来源的流式数据分为8 类,如图4.6 所示。
图4.6 以空间位置的实测数据集1 分类
(2)实测数据集2
除了异常数据和检测器未采集到的数据记录,以每一个检测器检测的交通流量数据为一条流式数据,该数据集包括42 个不同来源的流式数据,共有2 016×42 个记录。本实验的任务是根据多个不同的检测器所采集的交通流量数据的相似性,将每一天的数据记录进行分类,如从星期一到星期日,共分为7 类,如图4.7 所示。
图4.7 以天为单位的实测数据集2 的分类
(3)实测数据集3
以每一个检测器检测所获得的表征交通状态的32 维特征为对象,该数据集包括42 个不同来源的交通状态记录,共有32×42 =1 344 个特征。本实验的任务是根据多个不同的检测器所采集的表征交通状态的1 344个特征,在以天为单位的每一时间步,将288×1 344 个记录分成8 类,一共包括7 个时间步。实测数据集的基本属性描述见表4.5。
表4.5 实测数据集描述
为了测试4 种算法在聚类数变化时的聚类效果,基于实测数据集1,将20 次实验所得的不同算法的平均聚类性能进行比较。不同聚类数时的聚类性能见表4.6 和表4.7,包括ACC 和标准互信息NMI。
表4.6 4 种算法在实测数据集1 上的聚类准确率
(www.daowen.com)
表4.7 4 种算法在实测数据集1 上的NMI
由表4.6 和表4.7 的结果可知,NMTF 和STClu 算法比K⁃means 和AccKM 算法的聚类质量好。其原因在于提出的STClu 算法和NMTF 是双边聚类,并且考虑了数据的几何结构信息。
为了测试算法STClu 在多维特征时的聚类效果,4 种算法在实测数据集2 上的ACC 和NMI 分别见表4.8、表4.9。
表4.8 4 种算法在实测数据集2 上的聚类准确率
表4.9 4 种算法在实测数据集2 上的NMI
由表4.8 和表4.9 的结果可以看出,考虑了数据几何结构信息的STClu 和NMTF 算法的聚类性能整体上优于KM 和AccKM 算法。
为了测试历史信息对聚类效果的影响,4 种算法用于实测数据集3上的10 次实验得到的平均聚类效果进行比较,时间步的聚类结果见表4.10和表4.11,包括聚类准确率ACC 和标准互信息NMI。
表4.10 4 种算法在实测数据集3 上的聚类准确率
表4.11 4 种算法在实测数据集3 上的NMI
由表4.10 和表4.11 的结果可知,考虑了历史信息和几何结构信息的STClu 算法的ACC 和NMI 均优于其他3 种相关方法。NMTF 算法总体上优于AccKM 和KM 算法。AccKM 算法优于没有考虑历史信息的K⁃means聚类性能。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。