理论教育 特征与价值:独特大数据

特征与价值:独特大数据

时间:2023-11-27 理论教育 版权反馈
【摘要】:与众不同的大数据有别于传统数据源的大数据有不少重要的特征,不是每个大数据源都有这些特征存在,绝大多数的大数据或多或少地都存在一些这样的特征。第一个特征是大数据的来源往往是机器自动的结果。可是大数据不是这样产生的,它不会在产生过程中与人互动,像是引擎中内置的传感器,即便没有人干预周围数据也会自动生成。第三个特征是大数据中的大多数设计并非友好。大数据有时候还会是凌乱和丑陋的。

特征与价值:独特大数据

与众不同的大数据

有别于传统数据源的大数据有不少重要的特征,不是每个大数据源都有这些特征存在,绝大多数的大数据或多或少地都存在一些这样的特征。

第一个特征是大数据的来源往往是机器自动的结果。人工不会干涉到新数据的产生过程,完全是机器自动的结果。如果拿传统数据源进行分析的话,就会发现它们的形成过程中会有人工的痕迹,像是零售业银行交易、电话呼叫记录、产品发票等等,和某个人做的事情都有关系,无论什么情形,都会有人参与到新数据的形成过程中。可是大数据不是这样产生的,它不会在产生过程中与人互动,像是引擎中内置的传感器,即便没有人干预周围数据也会自动生成。

第二个特征是大数据作为一个全新的数据源,不仅仅是已有数据的收集扩展,比如在互联网中,顾客与银行、零售商之间可以直接在线交易。事实上这种交易方式和传统交易差异不大,不过是换一种渠道而已。企业通过收集网络交易数据就会发现这样情形下的数据和多年来他们得到的传统数据差异不大,不过是数量增加了而已。如果收集的是客户浏览行为的数据,那就会产生本质上全然不同的数据。

上面提到的相同类型数据,不过是数量多了的说法也会因为达到另一个极端,成为最新的数据,比如说传统读电表都是人工方式,也就是说自动读取用电数据的智能电表所产生的数据就是类型相同,不过是数量增加了。不过这种数据在某种程度上也能成为一种有别于人工读取的数据,应用更为深层次的分析方式,这样一来它们就可以称作是新的数据源。(www.daowen.com)

第三个特征是大数据中的大多数设计并非友好。实际上这些数据并未经过设计。就拿社交媒体网站上的文本流举例,用户不一定会被要求用标准的语序、语法和词汇表。人们的信息一经发布,社交平台就能够获得数据。这些不太规范的数据处理起来还是有一定困难的。在设计之初,大多数的传统数据都尽量要友好一些,就比如收集交易信息的系统最早生成数据会以整洁或是预先规范的方式来操作,这样形成的数据就更有利于加载和使用。还有一部分原因是由于要对空间进行高效利用,以避免出现空间不够的局面。

大数据有时候还会是凌乱和丑陋的。通常最开始传统数据就已经被严格地定义。每一比特的数据都存在重要的价值,这是必需的。一般大数据源一开始不会被严格定义,这和存储空间的开销越来越微乎其微有关,必须对各种有用的信息进行收集。所以说大数据分析的时候,各种凌乱丑陋的数据都有可能遇见。

最后的特征是海量数据并非有大量价值。实际的数据很多都是毫无价值的。在一篇网页日志当中,非常重要的数据就包含其中,当然也有好多没价值的数据也在其中。很有必要从中提炼最有价值的部分。定义传统数据源的起初就要求数据是百分百有用。这是因为可扩展性受到了限制,所以如果有没价值的信息在当中的话代价会非常昂贵。除了最初定义的有数据记录的格式外,数据内容和价值也被定义和约束了。当下存储空间的问题已经不存在了。大数据所收集的是所有的信息,然后再去解决这些冗余信息所带来的问题。只有这样才会不遗漏所有的信息,与此同时在分析数据时的麻烦也会让人头疼不已。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈