3.3.1.1 数据流
所谓数据流就是大量的、连续的、以特定次序传输的数据序列,这种数据序列中包含许多潜在知识和有用信息。数据流挖掘即是用特殊技术从这种流式数据中提取出有用知识的过程。由于数据流是按时间顺序的、快速变化的、海量的和潜在无限的,注定大多数传统的数据挖掘方法不适用于在数据流上进行挖掘。数据流的潜在无限性使它不可能全部存储在数据库中,快速变化使它不能多次重复扫描,因而只能对其进行实时、抽样扫描,导致数据流挖掘的结果也只能是近似值。
3.3.1.2 数据流特点
(1)有序性、连续性、实时(或随时)性,数据有序地、连续地到达并实时地变化;
(2)无限性,大数据量,甚至是无限的数据量,存储所有数据的代价是极大的;
(3)单遍性,由于内存的限制,只能对数据流进行单遍扫描;
(4)概要性,处理数据流数据时,要求构造概要数据结构;
(5)低层次性和多维性,数据流的原始细节数据的概念层次较低且具有多维(或高维)的特点;(www.daowen.com)
(6)近似性,数据流查询以及挖掘处理得到的结果是近似的;
(7)即时性,用户要求得到即时的处理结果。
另外,分布式数据流还具有分布性、并行性和多重性的特点。
值得指出的是,传统的实时数据库(Real-time Database)技术以及中间件(M iddleware)技术一般不适合于用来解决数据流的查询、挖掘等问题,或在某种程度上只能满足部分的数据流处理要求,其原因之一是这两种技术的处理引擎的效率与数据流的流速不匹配。
3.3.1.3 数据流类型
数据流分为两种:一种是数据源产生的数据独立同分布,被称为稳定数据流;另一种是数据源产生的数据不独立同分布,认为在数据产生过程中发生了“概念漂移”,称其为动态数据流。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。