理论教育 大数据分析的原理与概念

大数据分析的原理与概念

时间:2023-06-14 理论教育 版权反馈
【摘要】:(一)大数据分析的概念界定1.何谓大数据分析大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用的信息以及对数据加以详细研究和概括总结的过程。在实际应用中,大数据分析可帮助人们做出判断,以便采取适当行动。所以,无论是“传统数据分析”,还是“大数据分析”,均需要将原始数据按照分析思路进行统计处理,得到概要性的统计结果供人分析。

大数据分析的原理与概念

(一)大数据分析的概念界定

1.何谓大数据分析

大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用的信息以及对数据加以详细研究和概括总结的过程。在实际应用中,大数据分析可帮助人们做出判断,以便采取适当行动。从字面上拆开,“大数据”与“分析”两个词即为大数据分析基本概念的两个方面:一方面包括采集、加工和整理数据;另一方面也包括分析数据,从中提取有价值的信息并形成对业务有帮助的结论。形象地说,分析是骨架,数据是血肉。对于一份没有分析的数据,没有人的加工、整理、分析,没有和具体行为产生关联,也就毫无价值。对于一份没有数据的分析,很难做到言之有理、言之有信、言之有据。

2.大数据分析与传统数据分析的比较

数据分析早已有之,在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实。大数据分析和数据分析相比,既有相同想同之处,也有改革提升之所。为了更好地理解大数据分析内涵,本书从三个方面对数据分析和大数据分析进行对比。

第一,在分析方法上,两者并没有本质不同。“传统数据分析”的核心工作是人对数据指标的分析、思考和解读,人脑所能承载的数据量是极其有限的。所以,无论是“传统数据分析”,还是“大数据分析”,均需要将原始数据按照分析思路进行统计处理,得到概要性的统计结果供人分析。两者在这个过程中是类似的,区别只是原始数据量大小所导致处理方式的不同,比如是用Excel和数据库,还是用编程和分布式系统等。21世纪初,咨询公司为企业客户做数据分析项目,基本不写程序,主要用Excel处理,最多从数据库中获取原始数据时写几句SQL语句。近两年,由于各行各业的数据量均迅猛增长,这些咨询公司也开始学习编程处理数据。面对大数据的场景,处理数据的过程往往是确定分析思路,通过脚本编程(有时候用到分布式平台)处理庞大的原始数据(通常以日志方式存储),得到少量的核心维度和指标的数据后,用Excel等软件处理分析这些指标结果,得出分析结论。由于“传统数据分析”和“大数据分析”的区别体现在数据处理方法上,因此,两者在分析方法上是一致的。

第二,在对统计学知识的使用重心上,两者存在较大的不同。“传统数据分析”使用的统计知识主要围绕“能否通过少量的抽样数据来推测真实世界”这一主题展开,比如衡量一次抽样统计的置信性(能否从统计概率的角度相信)等。在大数据时代,由于互联网长尾经济的兴起,涌现出大量的个性化匹配场景(如购物网站的推荐系统)。这些场景一方面可供划分的特征非常多(如用户的特征、商品的特征、场景的特征);另一方面又累积了大量的历史样本,使得“大数据分析”的主题转变成“如何设计统计方案,可得到兼具细致和置信的统计结论”。

第三,与机器学习模型的关系上,两者有着本质差别:在大部分情况下“传统数据分析”,只是将机器学习模型当黑盒工具来辅助分析数据(黑盒工具:软件领域的概念,只关心了解模块的输入和输出,但不清楚内部的实现原理)。而“大数据分析”,更多时候是两者的紧密结合,大数据分析产出的不仅是一份分析报告,还包括业务系统中的建模潜力点,甚至产出模型的原型和效果评测,后续基于此来升级产品。在大数据分析的场景中,数据分析往往是数据建模的前奏,数据建模是数据分析的成果。

3.大数据分析的影响因素

大数据分析是企业的一种能力;数据分析本身是一个过程;数据分析的本质是一种思想。影响大数据分析的因素有四个:技术和方法、数据的应用、商务模式、制度和规则(见图5-1)。

图5-1 大数据分析的影响因素

如图5-1所示,技术和方法,是指信息采集技术、数据库架构、数据处理技术、算法可视化等,它们都会在很大程度上对大数据分析产生根本性的限制或改变,这就是为什么分布式存储、运算等技术成熟后,大数据这一概念被热捧的一个原因。数据的应用,更准确地说数据应用在一个企业、一个行业甚至全社会中被理解的程度有多深、使用范围有多广,决定了数据影响力能够达到的程度。当数据能力在市场中体现时才会发挥作用的因素,好的商务模式可以为行业内、跨行业的数据应用、数据产品提供好的商业环境,帮助其成长;而坏的商务模式也可能毁掉一个好的数据产品。制度和规则既有国家层面的(例如数据安全保障方面的法规),也有行规、企业内部制度等。这些制度和规则保障了数据能够被用在需要且正确的地方,而不是被滥用(某种程度上,制度和规则的缺失也是造成数据安全问题、行业数据标准混乱的主要原因)。

(二)大数据分析的基本原理(www.daowen.com)

1.数据核心原理

数据核心原理,是指大数据时代,数据分析模式发生了转变,从“流程”核心转变为“数据”核心。因为大数据产生的海量非结构化数据及分析需求,已经改变了IT系统的升级方式:从简单增量到架构变化。Hadoop体系的分布式计算框架,正是以“数据”为核心的范式

科学进步越来越多地由数据来推动,海量数据给大数据分析既带来了机遇,也构成了新的挑战。大数据往往是利用众多技术和方法,综合源自多个渠道、不同时间的信息而获得的。为了应对新的挑战,需要新的统计思路和计算方法——即用数据核心思维方式思考问题、解决问题。以数据为核心,反映了当下IT产业的变革,数据成为人工智能的基础,也成为智能化的基础,数据比流程更重要,数据库、记录数据库,都可开发出深层次信息。云计算可以从数据库、记录数据库中搜索出你是谁、你需要什么,从而推荐给你需要的信息。

2.数据价值原理

数据价值原理,是指大数据分析不强调具体的功能,而是强调数据产生价值。从功能体现价值转变为数据体现价值,说明数据和大数据的价值在扩大,数据为“王”的时代出现了。数据被解释是信息,信息常识化是知识,所以说数据解释、大数据分析能产生价值。数据分析能发现每一个客户的消费倾向,他们想要什么、喜欢什么,每个人的需求有哪些区别,哪些又可以被集合到一起来进行分类。大数据是数据数量上的增加,以至于能够实现从量变到质变的过程。比如,一张照片,照片里的人在骑马,照片每一分钟、每一秒都要拍一张,但随着处理速度越来越快,从1分钟1张到1秒钟1张,突然到1秒钟10张后,就产生了电影。当数量的增长实现质变时,就从照片变成了一部电影。

数据价值原理说明:用数据价值思维方式思考问题、解决问题。美国有一家创新企业Decide.com,它可以帮助消费者进行购买决策,告诉消费者什么时候买什么产品、什么时候买最便宜,预测产品的价格趋势。其实这家公司背后的驱动力就是大数据分析。他们在全球各大网站上搜集数以十亿计的数据,然后帮助数以十万计的用户省钱,为他们的采购找到最好的时间,降低交易成本,为终端的消费者带去更多价值。在这类模式下,尽管一些零售商的利润会进一步受挤压,但从商业本质上来讲,可以把钱更多地放回到消费者的口袋里,让购物变得更理性,这是依靠大数据催生出的一项全新产业。这家为数以十万计的客户省钱的公司,已经被eBay以高价收购。美国人开发一款“个性化分析报告自动可视化程序”软件从网上挖掘数据信息,这款大数据挖掘软件将自动从各种数据中提取重要信息,然后进行分析,并把此信息与以前的数据关联起来,分析出有用的信息。

3.预测原理

预测原理,是指大数据分析使得很多事情从不能预测转变为可以预测。大数据分析,不是要教机器像人一样思考,而是把数学算法运用到海量的数据上来预测事情发生的可能性。例如,微软大数据团队在2014年巴西世界足球赛前设计了世界杯模型,该预测模型正确预测了赛事最后几轮每场比赛的结果,包括预测德国队将最终获胜。预测成功归功于微软在世界杯进行过程中获取的大量数据,到淘汰赛阶段,数据如滚雪球般增多,掌握了有关球员和球队的足够信息,以适当校准模型并调整对接下来比赛的预测。

世界杯预测模型的方法与设计其他事件的模型相同,诀窍就是在预测中去除主观性,让数据说话。预测性数学模型几乎不算新事物,但它们正变得越来越准确。在这个时代,大数据分析能力终于开始赶上数据收集能力,分析师不仅有比以往更多的信息可用于构建模型,也拥有在很短时间内通过计算机将信息转化为相关数据的技术。

此外,随着系统接收到的数据越来越多,通过记录找到的最好的预测与模式,可以对系统进行改进。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。真正的革命并不在于分析数据的机器,而在于数据本身和如何运用数据。

预测原理说明:用大数据预测思维方式来思考问题、解决问题。数据预测、数据记录预测、数据统计预测、数据模型预测、数据分析预测、数据模式预测、数据深层次信息预测等等,已转变为大数据预测、大数据记录预测、大数据统计预测、大数据模型预测,大数据分析预测、大数据模式预测、大数据深层次信息预测。互联网、移动互联网和云计算机保证了大数据实时预测的可能性,也为企业和用户提供了实时预测的信息、相关性预测的信息,让企业和用户抢占先机。

4.信息找人原理

信息找人原理,是指通过大数据分析,从人找信息转变为信息找人。过去,是通过搜索引擎查询信息;现在,是通过推荐引擎,合适的信息以合适的方式直接传递给合适的人。大数据分析,还改变了信息优势。例如,过去患者只能相信医生,因为医生知道得多;但现在患者可以到百度谷歌上查一下,知道自己得了什么病。这导致专家和普通人之间的信息优势逐渐弱化。谷歌有一个机器翻译的团队,起初翻译之后的文字根本看不懂,但现在60%的内容都能读得懂。谷歌机器翻译团队里有一个笑话:从团队每离开一个语言学家,翻译质量就会提高。越是专家越搞不明白,但打破常规让数据说话,得到真理的速度反而更快。

大数据分析的其中一个核心目标是要从体量巨大、结构繁多的数据中挖掘出隐蔽在背后的规律,从而使数据发挥最大化的价值。从人找信息到信息找人,是交互时代的一个转变,也是智能时代的要求。信息找人原理,本质上是要求大数据分析要以人为本,由计算机代替人去挖掘信息、获取知识。从各种各样的数据(包括结构化、半结构化和非结构化数据)中快速获取有价值信息,提供所需要的信息。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈