理论教育 大数据技术的特点:获取本质,忽略原因,准确快捷的相互关系分析

大数据技术的特点:获取本质,忽略原因,准确快捷的相互关系分析

时间:2023-06-14 理论教育 版权反馈
【摘要】:大数据技术具有下述显著的特征。获取大数据本身并不是目的,能用小数据解决的问题绝不要故意增大数据量。大数据技术只知道是什么,而不需要知道为什么,就像亚马逊的推荐算法指出的那样,知道喜欢A的人很可能喜欢B,但却不知道其中的原因。大数据的相互关系分析更准确、更快,而且不易受到偏见的影响。建立相互关系分析法的预测是大数据的核心。大数据研究是一种交叉科学研究,应体现其交叉学科的特点。

大数据技术的特点:获取本质,忽略原因,准确快捷的相互关系分析

大数据技术具有下述显著的特征。

1.分析全面的数据而非随机抽样

在大数据出现之前,由于缺乏获取全体样本的手段和可能性,针对小样本提出了随机抽样的方法。在理论上,越随机抽取样本,就越能代表整体样本,但是获取随机样本的代价极高,而且费时。出现数据仓库和云计算之后,获取足够大的样本数据,以至获取全体数据成为可能并更为容易了。因为所有的数据都在数据仓库中,完全不需要以抽样的方式调查这些数据。获取大数据本身并不是目的,能用小数据解决的问题绝不要故意增大数据量。当年开普勒发现行星三大定律,牛顿发现力学三大定律都是基于小数据。从通过小数据获取知识的案例中得到启发,人脑具有强大抽象能力,例如人脑就是小样本学习的典型。

2~3岁的小孩看少量图片就能正确区分马与狗、汽车火车,似乎人类具有与生俱来的知识抽象能力。从少量数据中如何高效抽取概念和知识是值得深入研究的方向。至少应明白解决某类问题,多大的数据量是合适的,不要盲目追求超额的数据。数据无处不在,但许多数据是重复的或者没有价值的,未来的任务不是获取越来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识、获得价值。

2.重视数据的复杂性,弱化精确牲

对小数据而言,最基本和最重要的要求就是减少错误、保证质量。由于收集的数据少,所以必须保证记录下来的数据尽量准确。例如,使用抽样的方法,就需要在具体的运算上非常精确,在1亿人口中随机抽取1000人,如果在1000人的运算上出现错误,那么放大到1亿人将会增大偏差,但在全体样本上,产生多少偏差就为多少偏差,不会被放大。

精确的计算是以时间消耗为代价的,在小数据情况下,追求精确是为了避免放大的偏差而不得已为之。但在样本等于总体大数据的情况下,快速获得一个大概的轮廓和发展趋势比严格的精确性重要得多。(www.daowen.com)

大数据的简单算法比小数据更有效,大数据不再期待精确性,也无法实现精确性。

3.关注数据的相关性,而非因果关系

相关性表明变量A与变量B有关,或者说变量A的变化与变量B的变化之间存在一定的比例关系,但在这里的相关性并不一定是因果关系。

亚马逊的推荐算法指出根据消费记录来告诉用户可能喜欢什么,这些消费记录有可能是别人的,也有可能是该用户的历史购买记录,并不能说明喜欢的原因。不能说很多人都喜欢购买A和B,就存在购买A之后的结果是购买B的因果关系,这是一个未必的事情。但其相关性高,或者说概率大。大数据技术只知道是什么,而不需要知道为什么,就像亚马逊的推荐算法指出的那样,知道喜欢A的人很可能喜欢B,但却不知道其中的原因。知道是什么就足够了,没有必要知道为什么。在大数据背景下,通过相互关系就可以比以前更容易、更快捷、更清楚地进行分析,找到一个现象的关系物。系统相互依赖的是相互关系,而不是因果关系,相互关系可以表明将发生什么,而不是为什么发生,这正是这个系统的价值。大数据的相互关系分析更准确、更快,而且不易受到偏见的影响。建立相互关系分析法的预测是大数据的核心。当完成了相互关系分析之后,又不满足仅仅知道为什么,可以再继续研究因果关系,找出原因。

4.学习算法复杂度

一般NlogN、N2级的学习算法复杂度可以接受,但面对PB级以上的海量数据,NlogN、N2级的学习算法难以接受,处理大数据需要更简单的人工智能算法和新的问题求解方法。普遍认为,大数据研究不止是上述几种方法的集成,应该具有不同于统计学和人工智能的本质内涵。大数据研究是一种交叉科学研究,应体现其交叉学科的特点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈