理论教育 大数据分析的原则优化:如何有效分析海量数据?

大数据分析的原则优化:如何有效分析海量数据?

时间:2023-06-11 理论教育 版权反馈
【摘要】:与传统的数据分析不同,在运用机器学习进行大数据分析时,需要遵循两个原则:完备性原则和相关性原则。3)对整体数据的采集与处理具有对数据子类别进行进一步研究的能力。工业大数据分析提供了解决复杂问题的途径。大数据分析的目的就是要发现强相关性的因素。这就是大数据分析的威力。

大数据分析的原则优化:如何有效分析海量数据?

与传统的数据分析不同,在运用机器学习进行大数据分析时,需要遵循两个原则:完备性原则和相关性原则。

1.完备性原则

机器学习的完备性原则是指在机器学习时尽可能收集全部数据并对全部数据进行分析,而不再依赖于采样分析。

受计算能力和数据采集成本的限制,以前人们常常会使用随机选择样本的方法来进行数据采集和分析。通过随机采样方法,可以使用最少的数据获得最多的信息。随机采样方法是现代社会和现代测量领域的主要方法,过去人类通过这种方法解决了许多问题。但使用这种方法必须保证数据采集的随机性。当数据的随机性无法保证时,根据样本分析就无法得到正确的结论。

采用随机采样的方法是因为在互联网时代之前,数据的采集与分析需要耗费巨大的人力与物力。以美国十年一次的人口普查为例,美国法律规定美国国会众议院议员人数、许多联邦拨款都是根据各州人口的数量而定的,因此要求有正确与及时的人口数据。美国在1880年进行的人口普查,耗时八年才完成数据汇总。即使使用计算机,每十年一次的人口普查的资料收集和数据的处理费用也是一个天文数字。假如一个汽车制造商想采集它的几十万辆汽车的运行状态参数而对其进行分析,在互联网时代之前,这就是一件不可能做到的事情。

在工业互联网时代,机器会连接到互联网,这就使得人们可以很便捷地采集到大量的机器数据。云计算带来的巨大计算能力也可以让人们能够对全部数据进行分析。这样做有以下几个好处。

1)对整体数据的采集与处理可以避免人们对数据随机性的担忧,所得出的结论的正确性能够得到保证。

2)对整体数据的采集与处理可以帮助人们发现采样分析时无法得到的一些微观细节的信息,因此许多问题的答案经常藏在细节之中,而采样分析法却无法捕捉到这些细节。

3)对整体数据的采集与处理具有对数据子类别进行进一步研究的能力。当使用采样分析时,即使能保证整体数据的随机性,也无法保证子类别数据的随机性。

下面是一个遵循完备性原则进行大数据分析的例子。2012年纽约时报政治预测员奈特·希尔沃(Nate Silver)在历史上首次准确预测了50个州的总统大选结果并且准确预测了选举团票数。这是包括盖洛普公司在内的所有知名民意测验公司在花费了大量的人力和物力的情况下也从来没有取得过的成绩。(www.daowen.com)

希尔沃解决这个难题的思路很简单,即想办法在投票前了解到每一个人会投哪个候选人的票。他在互联网上,尤其是互联网的各种社交网络上,尽可能地收集所有和美国2012年大选有关的数据,其中包括各地新闻媒体上的数据,留言簿和地方新闻中的数据,Facebook和Twitter上人们的发言及其朋友的评论,以及候选人选战的数据等,然后进行整理。因为希尔沃采集了所有他能够采集的数据,其数量远远大于盖洛普公司使用采样分析所采访的人员数量,而且他对所有采集到的数据进行了分析,符合了完备性原则,因此他能够准确预测每一个州2012年美国大选的结果。

2.相关性原则

相关性原则是指在进行工业大数据分析时寻找相关性,不再试图寻找因果关系

工业大数据分析提供了解决复杂问题的途径。受人类知识的局限,人们对许多复杂问题缺乏足够的知识,无法确定复杂问题的因果关系。在许多时候,一个复杂问题的影响因素有很多,传统的因果关系可能并不存在。在工业互联网时代,数据采集的成本得到了大幅度降低。通过对数据的分析,人们比较容易找到复杂问题的相关因素,建立相关性。通过相关关系,就可以解决许多复杂问题,而不需要耗费大量的人力、物力去寻找因果关系。即使在很多时候不知道“为什么”,但只要知道“是什么”,就可以解决问题了。

信息论中,互信息定义了信息之间的相关性程度。在很多时候,人们能够获取的信息和要研究的事物并非一回事,它们之间必须“有关联”,所获得的信息才能帮助人们排除不确定性,帮助人们解决复杂问题。信息论中的互信息,就是信息之间相关性的量化度量。例如,通过对大量人体健康数据进行分析就会发现,人体健康与吸烟的互信息很大,它们之间有非常强的相关性。而“人体健康”和“宗教信仰”的互信息则比较小,说明二者只有比较弱的相关性。大数据分析的目的就是要发现强相关性的因素。

一个广为人们引用的应用相关性原则的例子是《纽约时报》的记者查尔斯·杜西格(Charles Duhigg)报道的美国第二大折扣零售商塔吉特(Target)通过大数据相关关系分析预测一个女性会在什么时候怀孕。对于零售商来说,知道一个顾客是否怀孕是非常重要的。因为这是一对夫妻开始一种新的生活,改变消费观念的开始。这时他们会开始光顾以前不会去的商店,购买以前不会购买的衣物,因此给了零售商和许多商品建立品牌忠诚度的机会。

2002年,塔吉特连锁百货店聘请统计学硕士安德鲁·波尔(Andrew Pole)来分析数据。当时塔吉特已经通过自己公司的信用卡建立了大量用户姓名、地址、邮箱和电话的档案和他们的购物记录。因为已经具有了大量用户的购物记录,波尔的分析团队就试图通过一个人的购物方式发现她是否怀孕。他们首先查看了签署婴儿礼物登记簿的女性的消费记录。他们注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,如镁、钙、锌。公司最终找出了大概20多种关联物,通过这些关联物可以对顾客进行“怀孕趋势”评分。这些相关关系甚至使得塔吉特能够比较准确地预测预产期,这样就能够在孕期的每个阶段给顾客寄送相应的优惠券,吸引她们购买推广的物品。

杜西格在《习惯的力量》(The Power of Habit)一书中讲到了接下来发生的事情。一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后经理打电话向这个男人致歉时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我”。

记者杜西格在他的书中这样评论道:“塔吉特比一个十几岁女孩的父亲先知道他的孩子怀孕了”。这就是大数据分析的威力。当商家掌握了大数据之后,可以通过分析来大幅度提高公司的销售业绩。2002年,也就是波尔受聘于塔吉特的那一年,该连锁店的营业额是440亿美元。到了2010年,营业额则上升到670亿美元。塔吉特的CEO认为波尔团队对此做出了非常大的贡献。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈