TEEMA算法展现卓越伸缩性

更新时间：2025-01-02 理论教育 版权反馈

【摘要】：因为算法TEEMA 主要用于分析聚类模型随时间的演化特性，对于数据分析所得到的聚类模型并不产生影响，所以本书仅验证ICMDS 算法在聚类数k 和数据规模变化时的可扩展性。图5.3当聚类数k 从5～300 变化时，4 种算法的平均处理时间比较从图5.3 可以看出，基于4 种不同聚类算法的TEEMA 的平均处理时间均呈上升的趋势。为了测试TEEMA 算法的可扩展性，从实测数据集中分别选取50 ～2 000条流式数据进行实验，分别测试4 种算法的CPU 处理时间。

因为算法TEEMA 主要用于分析聚类模型随时间的演化特性，对于数据分析所得到的聚类模型并不产生影响，所以本书仅验证ICMDS 算法在聚类数k 和数据规模变化时的可扩展性。

首先，聚类数k 在5～300 变化时，每一个时间步的流式数据数目为2 000。每一条流式数据包括32 个数据点，实验结果如图5.3 所示。

pagenumber_ebook=126,pagenumber_book=115

图5.3　当聚类数k 从5～300 变化时，4 种算法的平均处理时间比较

从图5.3 可以看出，基于4 种不同聚类算法的TEEMA 的平均处理时间均呈上升的趋势。当k 位于100 左右时，基于4 种算法的平均处理时间变化从比较缓慢上升为急剧增长。但是，整体上而言，基于ICMDS 算法的处理时间优于其他3 种算法。

为了测试TEEMA 算法的可扩展性，从实测数据集中分别选取50 ～2 000（每次增加50）条流式数据进行实验，分别测试4 种算法的CPU 处理时间。测试结果如图5.4 所示。

pagenumber_ebook=127,pagenumber_book=116

图5.4　当流式数据数n 从50～2 000 时，4 种算法的平均处理时间比较(www.daowen.com)

从图5.4 可以看出，随着流式数据个数n 的增长，4 种算法的平均处理时间都呈上升的趋势。总体上看来，ICMDS 算法与SpeClu 算法的上升速度比较缓慢，COMET 和K⁃means 算法的上升速度较快。在流式数据数目n 接近1 000 时，ICMDS 算法的时间效率低于SpeClu 算法。

为了验证本书所提出的算法EC⁃NMF，STClu 以及ICMDS 算法在处理高维数据时的执行效率，与在主成分分析空间中进行聚类的K⁃means算法进行了对比。本实验的设置如下：聚类数k ＝24，流式数据数n ＝2 016，每条流式数据的数分别为32，64，128，256，512，768，1 024 时的实验效果，如图5.5 所示。

由图5.5 可以看出，与传统的K⁃means 算法相比，本书所提出的3 种算法在处理高维数据时，算法的执行效率均表现出较大的优势。

通过3.5 节、4.5 节、5.5 节的实验结果可得，聚类数k、流式数据数n以及流式数据的特征维数都会影响算法的处理时间。实际上，算法的执行效率和聚类质量的优劣是一个相互博弈的过程，较好的聚类性能可能会损失一定的处理时间。

pagenumber_ebook=128,pagenumber_book=117