理论教育 大数据分析:过程与对象

大数据分析:过程与对象

时间:2023-06-14 理论教育 版权反馈
【摘要】:(一)大数据分析的过程从拿到数据到将数据中的知识提炼成人类的智慧,这是一个很长的过程,有可能一年甚至几年。换而言之,大数据分析本身就是一个过程。(二)大数据分析的对象1.互联网的大数据互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。以BAT大数据为例。这个软件还能对数据进行分析,并提供有价值的建议。

大数据分析:过程与对象

(一)大数据分析的过程

从拿到数据到将数据中的知识提炼成人类的智慧,这是一个很长的过程,有可能一年甚至几年。换而言之,大数据分析本身就是一个过程。

首先,想要分析数据,就必须先获取数据。获取数据这个过程如果是线上还相对容易,如果是线下就非常复杂,这也是为什么现在实体行业推进“互联网+”如此缓慢的一个原因。其次,得到数据之后,如何整理才能让数据变成信息,这也是个“技术活”。这里涉及数据的清洗、整理、关联等问题,最麻烦的还不是做这些工作,而是随着对数据认识的加深,这些工作总是不定时地就要返工重复修改和修订。

再次,数据整理得到的信息是海量的,需要经过加工、提取、抽象等操作,提炼成为各项知识被人脑理解、吸收,这个过程涉及各种分析方法的使用,而且这也是个随着对业务认识的加深而逐渐复杂的过程。金融领域的风控模型、宏观经济领域的福利模型等,都是发展多年并逐步演进的例子。

最后,在各个业务领域通过数据得到知识,在很多情况下可以重复应用在不同的领域,并与其他领域的知识相融合,形成新的生产生活方式。每个领域的知识内容如何相互融合,也是一个需要长期实践和探索的过程。“产品”这一概念从诞生到现在的发展过程,就是一个很好的例子。

举例而言,采集到的原始数据就像是一个一个的沙砾,在没有任何整合的情况下都是“一堆一堆的”;数据处理的过程就是把沙堆中的杂质去掉,把每种颜色的沙砾区分开,再通过不同的工艺使其成为不同的砖块;每个砖块在建造数据大厦的过程中都有不同的用处,按照图纸(就是数据分析体系)将不同的砖块用在适当的建筑位置上;数据大厦构建完成后,每个房间里面要完成的工作都各不相同,到底如何运用,就要看大厦使用者的安排了。

(二)大数据分析的对象

1.互联网的大数据

互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地,随着WEB2.0时代的发展,公众似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆:互联网上的大数据很难清晰地界定分类界限。以BAT大数据为例。

百度拥有两种类型的大数据:用户搜索表征的需求数据,爬虫和阿拉丁获取的公共WEB数据。搜索巨头百度围绕数据而生,它对网页数据的爬取、网页内容的组织和解析。通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化,但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。

阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外,阿里巴巴还通过投资等方式掌握了部分社交数据(微博)、移动数据(高德)。

腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析用户生活和行为,从里面挖掘出政治社会、文化、商业、健康等领域的信息,甚至预测未来。

信息技术更为发达的美国,除了行业知名的类似Google和Facebook外,已经涌现了很多大数据类型的公司,它们专门经营数据产品,示例如下。

(1)Metamarkets

这家公司对Twitter、支付、签到和一些与互联网相关的问题进行了分析,为客户提供了很好的数据分析支持。

(2)Tableau

精力主要集中于将海量数据以可视化的方式展现出来。Tableau为数字媒体提供了一个新的展示数据的方式。他们提供了一个免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析,并提供有价值的建议。

(3)Par Accel

犯罪的预言者,向美国执法机构提供了数据分析,比如对15 000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。

(4)Qlik Tech

Qlik Tech旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。为了帮助开发者对这些数据进行分析,Qlik Tech提供了对原始数据进行可视化处理等功能的工具。

(5)GoodData

这家创业公司主要面向商业用户和IT企业高管,提供数据存储、性能报告、数据分析等工具。GpodData希望帮助客户从数据中挖掘财富。(www.daowen.com)

(6)Yell Apart

Tell Apart和电商公司进行合作,根据用户的浏览行为等数据进行分析,通过锁定潜在买家方式提高电商企业的收入。

(7)DataSift

DataSift主要搜集并分析社交网络媒体上的数据,并帮助品牌公司掌握突发新闻的舆论点,并制订有针对性的营销方案。这家公司还和Twitter有合作协议,使得自己变成了行业中为数不多可以分析早期Twitter的创业公司。

综上所述,互联网大数据的典型代表包括:①用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等);②用户消费数据(精准营销、信用记录分析、活动促销、理财等);③用户地理位置数据(O2O 推广、商家推荐、交友推荐等);④互联网金融数据(P2P、小额贷款、支付、信用、供应链金融等);⑤用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)。(见图5-3)

图5-3 互联网大数据

2.政府的大数据

奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分。未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据、金融数据、信用数据、电力数据、煤气数据、自来水数据、道路交通数据、客运数据、安全刑事案件数据、住房数据、海关数据、出入境数据、旅游数据、医疗数据、教育数据、环保数据等。这些数据在每个政府部门里面看起来是单一的、静态的,但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

具体来说,现代城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年年底全国开始建设的智慧城市的数量超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间,智慧城市建设拉动的设备投资规模达1万亿元人民币。大数据为智慧城市的各个领域提供了决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害恐怖事件,提高应急处理能力和安全防范能力。

另外,作为国家的管理者,政府应该将手中的数据逐步开放,供给更多有能力的机构组织或个人来分析并加以利用,以加速造福人类。比如,美国政府就筹建了一个data.gov网站,这是奥巴马任期内的一个重要举措:要求政府公开透明,而核心就是实现政府机构的数据公开。截至目前,已经开放了91 054个数据库、137个移动APP、175家机构组织。

3.企业的大数据

企业的CXO们最关注的是报表曲线的背后能有怎样的信息,应该做怎样的决策,其实这一切都需要通过数据来传递和支撑。在理想的世界中,大数据分析是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。例如,大数据分析,可以帮助企业开展精准营销,对大量消费者提供产品或服务;可以实现服务转型,成为小而美模式的中长尾企业;可以决定企业的生死存亡,推动传统企业转型。正如微软史密斯说的:“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”

随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。这里有两个明显的现象:第一,外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;第二,能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

从IT产业的发展来看,第一代IT巨头大多是TOB的,比如IBM、Microsoft、Oracle、SAP、HP这类传统IT企业;第二代IT巨头大多是TOC的,比如Yahoo、Google、Amazon、Facebook这类互联网企业。在大数据到来前,这两类公司彼此之间基本井水不犯河水;但在当前这个大数据时代,这两类公司已经开始直接竞争。比如Amazon已经开始提供云模式的数据仓库服务,直接抢占IBM、Oracle的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统IT巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统IT巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,那么他们的业务必将萎缩。在进入互联网后,他们又必须将云技术、大数据等互联网最具有优势的技术通过封装打造成自己的产品再提供给企业。

以IBM举例,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为:“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”IBM积极地提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(Stream Computing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。

另外一家亟待通过云和大数据战略而复苏的巨头公司HP也推出了自己的产品:HAVEn,一个可以自由扩展伸缩的大数据解决方案。这个解决方案由HP Autonomy、HP Vertica、HP ArcSight和惠普运营管理(HP Operations Management)四大技术组成,同时还支持Hadoop这样通用的技术。HAVEn不是一个软件平台,而是一个生态环境。四大组成部分满足不同的应用场景需要,Autonomy解决音视频识别的重要解决方案;Vertica解决数据处理的速度和效率的方案;ArcSight解决机器的记录信息处理,帮助企业获得更高安全级别的管理;运营管理解决的不仅仅是外部数据的处理,而是包括了IT基础设施产生的数据。

4.个人大数据

个人的大数据概念很少有人提及,简单来说,就是与个人相关联的各种有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,并获得第三方提供的数据服务。

未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大数据信息。用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯片等感知技术采集、捕获个人的大数据,比如,牙齿监控数据、心率数据、体温数据、视力数据、记忆能力、地理位置信息、社会关系数据、运动数据、饮食数据、购物数据等。用户可以将其中的牙齿监测数据授权给××牙科诊所使用,由他们监控和使用这些数据,进而为用户制订有效的牙齿防治和维护计划;也可以将个人的运动数据授权提供给某运动健身机构,由他们监测自己的身体运动机能,并有针对性地制订和调整个人的运动计划;还可以将个人的消费数据授权给金融理财机构,由他们帮助制订合理的理财计划并对收益进行预测。当然,其中有一部分个人数据是无须个人授权即可提供给国家相关部门进行实时监控的,比如罪案预防监控中心可以实时的监控本地区每个人的情绪和心理状态,以预防自杀和犯罪的发生。

以个人为中心的大数据有三大特性。首先,数据仅留存在个人中心,其他第三方机构只被授权使用(数据有一定的使用期限),且必须接受用后即焚的监管。其次,采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其他类型数据都由用户自己决定是否被采集。最后,数据的使用将只能由用户进行授权,数据中心可帮助监控个人数据的整个生命周期。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈