广义的数据分析包含狭义的数据分析和数据挖掘。
信息,抽象地说,就是可信的数据信息,和数据最大的区别就在于,一个是客观,一个是主观。例如你用尺子量桌子长宽,那么得出的值是数据,这是客观存在的。无论你的尺子是英制还是公制,但对于你而言,你并不关心实际的长度,而通常关心的是购买的桌子是否适合你家里的格局和空间等信息。这种主观对客观数据的接收和再描述就是信息。区分数据和信息的最大差别,就是主观和客观的差别。
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
数据分析将数据转化为信息,而这些信息需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘。数据挖掘,称为资料探勘、数据采矿,它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘与数据分析两者紧密相连,具有循环递归的关系,数据分析结果需要进一步进行数据挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。数据分析的结果是信息,这些信息作为数据,再进行数据挖掘。而数据挖掘,又使用了数据分析的手段,周而复始。
数据分析和数据挖掘的最大区别在于,数据分析是以输入的数据为基础,通过先验的约束,对数据进行处理,但是不以结论来调整先验的约束。例如你需要图像识别,这个属于数据分析。你要分析人脸,数据通过你的先验的方法,而出来个猫脸,你的数据分析也没有问题,你需要默默地承受结果,并且尊重事实。因此数据分析的重点在于数据的有效性,真实性,和先验约束的正确性。而数据挖掘则不同,数据挖掘是对信息的价值化的获取,价值化自然不考虑数据本身,而是考虑数据是否有价值。由此,一批数据,你尝试对它做不同的价值评估,就是数据挖掘。此时对比数据分析,最大的特点就是,你需要调整你的不同的先验约束,再次对数据进行分析,而先验的约束已经不是针对数据来源自身的特点,是你期望得到的一个有价值的内容,做先验的约束。以观测数据,根据这个约束,是否有正确的反馈。
总之,数据挖掘与数据分析的区别主要有以下5个方面。(www.daowen.com)
(1)二者所研究的数据在数量规模不同。数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的且有价值的信息和知识的过程。而数据分析是对数据规模不需要很大,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
(2)二者目的不同。数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律,数据挖掘的目标不是很清晰,要依靠挖掘算法来找出隐藏在大量数据中的规则、模式、规律等,并不追求原因分析。如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息。而数据分析主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析一般要分析的目标比较明确,分析条件也比较清楚。先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。
(3)二者所需的约束不同。数据挖掘不需要假设,可以自动建立方程。数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合。
(4)二者使用的方法不同。数据挖掘、主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。而数据分析主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法。
(5)二者输出的结果不同。数据挖掘输出模型或规则,并且可相应得到模型得分或标签。其中模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优、良、中、差等,是把信息变成认知的工具。数据挖掘的结果不容易解释,对信息进行价值评估,着眼于预测未来,并提出决策性建议。而数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用,呈现出有效信息。如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。
综合起来,数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析(狭义)与数据挖掘构成广义的数据分析。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。