【摘要】:典型的数据流包括网络与道路交通监测系统的监测信息数据、电信部门的通话记录数据、由传感器传回的各种监测数据、股票交易所的股票价格信息数据以及环境温度的监测数据等。因此原来很多成熟传统的聚类分析算法在数据流上变得不适用了,需要提出新的解决方法。数据流聚类分析作为数据流挖掘的一个重要研究方向,同样面临着巨大的挑战,也引起了研究者的广泛关注,目前出现了不少相关的研究成果,并应用到实践中。
聚类分析最早起源于分类学,初时人们依靠经验一类事件的集合分为若干子集。随着科技的发展,人们将数学工具引入分类学,聚类算法便被细化归入数值分类学领域。后来,信息技术快速发展,新数据的出现呈井喷趋势,其结构的复杂性和内容的多元化尤为聚类提出了新的要求,于是多元分析技术被引入数值分析学,形成了聚类分析学。
聚类分析已成为数据挖掘领域的主要课题之一。一个重要的原因就是聚类越来越多地应用在海量数据中,对于这些海量数据,单纯的统计方法无法实现有效的处理、从中得出有用的信息,需要将数据库管理、人工智能等计算机技术结合在一起提出集成的解决方案,而聚类分析正好为解决这些问题提供了一个有力工具。近年来,随着硬件技术的发展,有越来越多的应用产生数据流,数据流不同于传统的存储在磁盘上的静态数据,而是一类新的数据对象,它是无限的、连续的、有序的、快速变化的、海量的数据。典型的数据流包括网络与道路交通监测系统的监测信息数据、电信部门的通话记录数据、由传感器传回的各种监测数据、股票交易所的股票价格信息数据以及环境温度的监测数据等。数据流本身的这些特点决定了对数据流进行处理时只能对数据作一到两遍的扫描,并只能临时存储少量的数据。因此原来很多成熟传统的聚类分析算法在数据流上变得不适用了,需要提出新的解决方法。数据流挖掘技术作为数据挖掘领域的新问题,很多挖掘算法需要针对数据流进行改造。数据流聚类分析作为数据流挖掘的一个重要研究方向,同样面临着巨大的挑战,也引起了研究者的广泛关注,目前出现了不少相关的研究成果,并应用到实践中。(www.daowen.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
有关增量式自适应大数据挖掘算法的文章