“大数据”一词这两年被炒得火热,但直到现在也没有达成一个统一的概念。《大数据时代》的作者维克托·迈尔·舍恩伯格通过4个“V”的特征描述,给大数据做了个定义。
•第一个特征,是数据体量够大(Volume),从TB级别,跃升到PB级别;它不是样本思维,而是全体思维。大数据不再抽样,不再调用部分,要的是所有可能的数据,它是一个全貌。
•第二个特征,是数据类型够多(Variety),数据形式包括文本、图像、视频、机器数据、地理位置信息等。
•第三个特征,是数据价值密度低(Value),以视频监控为例,在连续不间断的监控过程中,可能有用的数据仅仅有一两秒。
•第四个特征,是数据具有实效性(Velocity),数据处理速度快,即时输入、处理与丢弃,立竿见影而非事后见效。比如我们在百度输入一条查询信息,后台必须经过大量计算迅速呈现,而不是等了一小时才看到结果。
而国内互联网公司多强调“在线”的数据特征,认为“在线”远远比“大”更反映本质,那些写在磁带、写在纸上的数据,在互联网应用中,根本没有作用。他们认为国家统计局依靠事后的调查、问询获得的那些“数据”虽然“大”,但并不是真正的大数据。
我们权且抛去概念之争,对于“大数据”各种呼吁的声音,至少让我们意识到,数据时代真的到来了,我们必须用数据的眼光重新审视我们周围的一切。因为一切可以数据化,也就意味着我们可以依托数据做出更为有效的决策。
今天,“大数据”已经在各行各业衍生出形形色色的数据应用。中国工程院院士李国杰曾表示:“推动大数据研究的动力主要来自企业的经济效益”。IBM、谷歌、亚马逊、Facebook等跨国巨头正是发展大数据技术的主要推动者。(www.daowen.com)
2008年推出的“谷歌流感趋势”,至今看来仍不失为一个典型的大数据应用范例。谷歌设计人员认为,人们输入的搜索关键词代表了他们的即时需要。他们编入了“温度计”、“肌肉疼痛”、“发烧”、“喷嚏”等与流感有关的关键词,当用户输入这些关键词时,系统便会开始跟踪分析,创建流感图表和地图。为了验证“谷歌流感趋势”预警系统的正确性,谷歌多次把测试结果与美国疾病控制与预防中心的报告作对比,结果证实两者存在很大的相关性。
2012年3月22日,奥巴马政府宣布投资两亿美元拉动大数据相关产业发展,将数据定义为“未来的新石油”,将“大数据战略”上升为国家意志,表明未来对数据的占有和控制将成为陆、海、空权之外的另一种国家核心资产。
2013年11月19日,国家统计局与上海钢联、山东卓创资讯集团有限公司、58同城信息技术有限公司、天云融创数据科技(北京)有限公司、中国联合网络通信有限公司、天脉聚源(北京)传媒科技有限公司、百度在线网络技术(北京)有限公司、阿里巴巴(中国)有限公司、纽海信息技术(上海)有限公司、昆明泛亚有色金属交易所股份有限公司和南京擎天科技有限公司共11家企业在京签订了大数据战略合作框架协议,共同推进大数据在政府统计中的应用。这个事件反映了电子商务、电子政务、社区信息服务、智能媒体处理、机器学习等是进入大数据时代不可或缺的几个获取数据、处理数据、分析数据、挖掘数据的重要方面。
和君商学院学子赵国栋、易欢欢等所著《大数据时代的历史机遇》传达的核心观点就是:缺少数据资源,无以谈产业;缺少数据思维,无以言未来。
大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网、和可扩展的存储系统。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。