【摘要】:大数据是指超过既往数据库系统规模、传输速度和处理能力,或者既往数据库系统结构无法容纳的数据。数据挖掘要用到统计分析、人工智能、数据库和神经网络等方面的知识,数据挖掘需要用户参与,并非某种单一工具、技术或软件即可独自完成。表1-3 数据挖掘与数据分析对比表按挖掘对象,数据挖掘分为数据库与数据仓库挖掘以及网络挖掘两种。评价数据的相似性是数据挖掘的基础。
大数据是指超过既往数据库系统规模、传输速度和处理能力,或者既往数据库系统结构无法容纳的数据。
数据挖掘就是从数据中挖掘出隐含的、先前未知的、有潜在用途的、最终可为人理解的关系、模式、趋势和其他有用信息,并建立模型,用于预测、判断或决策,帮助企业更好地适应变化并做出更明智的决策的过程。
数据挖掘要用到统计分析、人工智能、数据库和神经网络等方面的知识,数据挖掘需要用户参与,并非某种单一工具、技术或软件即可独自完成。
数据挖掘与数据分析区别见表1-3。
表1-3 数据挖掘与数据分析对比表
(www.daowen.com)
按挖掘对象,数据挖掘分为数据库与数据仓库挖掘以及网络挖掘两种。网络信息挖掘是在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等,发现挖掘对象间的内在关系与特性,进而在网络中提取用户感兴趣的信息,获得更高层次的知识和规律。
数据库与数据仓库挖掘步骤:信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示。网络信息挖掘步骤:确立目标样本、提取特征信息、网络信息获取、信息特征匹配。
评价数据的相似性是数据挖掘的基础。数据挖掘常用的数据相似度衡量尺度:欧式空间距离、明考夫斯基空间距离、余弦相似度、皮尔森相关系数等。
数据挖掘的功能:分类、聚类、关联、预测、检测异常等。实现上述功能的基本技术有分类分析、聚类分析、关联分析、异常分析、时序模型、类比推理、OLAP(联机分析处理)等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。