因为算法TEEMA 主要用于分析聚类模型随时间的演化特性,对于数据分析所得到的聚类模型并不产生影响,所以本书仅验证ICMDS 算法在聚类数k 和数据规模变化时的可扩展性。
首先,聚类数k 在5~300 变化时,每一个时间步的流式数据数目为2 000。每一条流式数据包括32 个数据点,实验结果如图5.3 所示。
图5.3 当聚类数k 从5~300 变化时,4 种算法的平均处理时间比较
从图5.3 可以看出,基于4 种不同聚类算法的TEEMA 的平均处理时间均呈上升的趋势。当k 位于100 左右时,基于4 种算法的平均处理时间变化从比较缓慢上升为急剧增长。但是,整体上而言,基于ICMDS 算法的处理时间优于其他3 种算法。
为了测试TEEMA 算法的可扩展性,从实测数据集中分别选取50 ~2 000(每次增加50)条流式数据进行实验,分别测试4 种算法的CPU 处理时间。测试结果如图5.4 所示。
图5.4 当流式数据数n 从50~2 000 时,4 种算法的平均处理时间比较(www.daowen.com)
从图5.4 可以看出,随着流式数据个数n 的增长,4 种算法的平均处理时间都呈上升的趋势。总体上看来,ICMDS 算法与SpeClu 算法的上升速度比较缓慢,COMET 和K⁃means 算法的上升速度较快。在流式数据数目n 接近1 000 时,ICMDS 算法的时间效率低于SpeClu 算法。
为了验证本书所提出的算法EC⁃NMF,STClu 以及ICMDS 算法在处理高维数据时的执行效率,与在主成分分析空间中进行聚类的K⁃means算法进行了对比。本实验的设置如下:聚类数k =24,流式数据数n =2 016,每条流式数据的数分别为32,64,128,256,512,768,1 024 时的实验效果,如图5.5 所示。
由图5.5 可以看出,与传统的K⁃means 算法相比,本书所提出的3 种算法在处理高维数据时,算法的执行效率均表现出较大的优势。
通过3.5 节、4.5 节、5.5 节的实验结果可得,聚类数k、流式数据数n以及流式数据的特征维数都会影响算法的处理时间。实际上,算法的执行效率和聚类质量的优劣是一个相互博弈的过程,较好的聚类性能可能会损失一定的处理时间。
图5.5 当特征维数从32~1 024 变化时,4 种算法的平均处理时间比较
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。