理论教育 三大层面解析数据类型划分

三大层面解析数据类型划分

时间:2023-07-05 理论教育 版权反馈
【摘要】:根据技术发展和应用程度,可以将数据分为单一数据层面的数据、统计层面的数据和大数据层面的数据。这种数据应用依赖于信息化手段,但尚未达到大数据的技术水平。大数据的核心不在于数据量级之大,而是能够对多类型、多维度的数据进行分析,反过来说分析基础也必须基于多类型、多维度的数据。大数据的“大”是指海量数据,既包括数据量大,也包括数据类型的丰富。

三大层面解析数据类型划分

根据技术发展和应用程度,可以将数据分为单一数据层面的数据、统计层面的数据和大数据层面的数据。本文简称为单一数据、统计数据和大数据。[14]三种层面数据的变化体现了数据价值的演变,从个体到群体,从量变到质变。理解三种层面数据的内涵,是后文论述的基础。

单一数据即个体(包括人和物)所产生的数据,其数据类型单一,比如某个自然人的姓名、身份证号码等,或者某个机器设备、零部件的型号、状态信息等。由于信息化技术水平不够,无法实现单一数据的汇集,使得数据处于分散、碎片化的状态。比如,在智慧交通兴起和发展以前,各个路口的红绿灯数据是单一的,分散且碎片化的,不能形成数据汇集。单一数据的价值极低,甚至没有价值。自然人所产生的单一个人信息几乎没有什么价值,只有规模化的个人信息集合才能产生相应的价值。但是对单一数据的滥用会产生个人信息权益受损的问题,我们大多数有关个人信息保护的讨论中,所针对的其实是单一数据。比如徐玉玉案件中,由于徐玉玉相关个人信息的泄露,造成了其财产、人身的伤害,而这种危害后果是基于徐玉玉本人的单一数据所发生的。个人信息保护相关法律规定所规范的个人数据也基本是围绕单一数据所设计的。更为直观地理解单一数据,还可以以人肉搜索为例。人肉搜索针对的是单一数据,通过分散于网络的、有关某个具体自然人碎片信息的大规模收集和整理,从而具体化拼凑出该自然人的身份信息。人肉搜索过程中,虽然也有大量信息被收集,但是从属性上看,所有的信息明确指向单个自然人,所以也应该被视为单一数据。从法益上来看,对单一数据的不当处理,可能会引发侵犯隐私权的风险,但未必会引发个人信息保护的问题。此外,数据跨境执法实际上也是单一数据层面的问题,比如美国联邦调查局(FBI)要求调取微软存储于爱尔兰服务器中数据的案件,对国家安全、数据安全层面造成负面影响。

统计数据是单一数据的汇集,比如身份证号码的列表等,典型表现形式就是数据库,其特点是同一类型或者简单多种类型的数据集合。虽然数据量可以非常大,但是数据种类相对单一、固定,只能挖掘出统计事实。通过统计数据能够得出统计结论,比如总量、均值等。零售商可以基于同期销售情况的统计数据,来进行进货量的决策。这种数据应用依赖于信息化手段,但尚未达到大数据的技术水平。比如,前述智慧交通的例子中,利用技术手段汇集城市各个路口的红绿灯数据,再加以分析,得出有关拥堵的交通信息,就是统计数据的应用。利用手机信令数据分析城市人口的时空分布[15],也是一种统计数据的应用,但这些都不是大数据应用。因为这种分析还是基于同种类型的数据(手机信令)的汇集,即便数据量足够大,也只是统计数据的层面。大数据的核心不在于数据量级之大,而是能够对多类型、多维度的数据进行分析,反过来说分析基础也必须基于多类型、多维度的数据。统计数据能够进行因果分析,而大数据技术能够发现数据与数据之间的相关性。如果能够通过信令数据、就业数据、交通数据等进行分析,得出未来房价或是生育率等走向趋势,就比较符合大数据的要义——通过寻找海量数据之间的相关性来获得预测结果。统计数据附加了人类劳动,其价值大于单一数据,最主要的体现是情报价值。利用统计数据,一般可以作预测分析,但是直接经济价值的释放并不明显。所以,单一数据与统计数据之间的冲突并不明显。统计数据仅仅增加了单一数据的数量累计,而没有发生质变的效果。从法感情的角度说,用户倾向于认为统计数据放大了风险。而统计数据也确实明显体现出侵犯用户权利的现象,比如骚扰电话、垃圾短信、电信诈骗等都是基于统计数据而得以实现的。(www.daowen.com)

大数据是最容易被误解的。其本质上是一种技术手段,而不是一种数据,特点是通过海量数据,结合算法等技术手段,得出相关结论。大数据对数据资源的要求非常高,一般认为包括5个V,即数据量大(volume)、速度快(velocity)、类型多(variety)、价值(value)、真实性(veracity)。大数据的“大”是指海量数据,既包括数据量大,也包括数据类型的丰富。大数据要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。[16]大数据要求的是混杂性,而非精确性[17],有观点指出,即使数据再不良,理论上也可以通过算力来弥补。[18]利用因果关系获取事实与利用相关关系获取事实,是大数据与统计数据最关键的区别。西医诊断以数据的因果性为基础,通过对应的检查数据来确定病因和诊疗方案,比如血液白细胞上升,就意味着存在炎症。而中医则不局限于因果性,通过“望闻问切”四诊法寻求的是数据的混杂性、多样性,进而依据多种数据进行综合判断,而这种判断不是以因果性为基础的,而是以相关性为基础的,是阴阳平衡,而不是单一的“药到病除”。中医诊治很难通过临床医学进行验证,因为相关关系的验证通过因果分析很难奏效。通过大数据分析得出的结果能够远超过统计数据的简单分析,因此利用大数据能够大幅度增加数据价值的释放,传统数据所具备的经济价值在大数据运用中释放得更为充分,甚至往往能超过预期,间接经济价值效果更加明显。大数据对海量数据、类型丰富的需求使得数据交易市场基础得以充实,也能激发直接经济价值的产生。周涛认为,进入大数据3.0版本后,将产生数据运营商和数据客(dacker),个人、团队和企业可以在已有数据的基础上进行数据分析、加工和挖掘,数据市场进而产生。[19]大数据能够释放的间接经济价值在商业营销方面十分明显,利用大数据进行的个性化推荐能够提高效率、降低成本。大数据同样放大了传统的安全问题,跨境数据流动的安全问题就是在大数据的语境下产生的。大数据对隐私保护的挑战非常严峻,从而衍生出个人信息保护问题。一般而言,大数据应用于宏观层面,但是微观层面同样存在大数据的应用,或者大数据原理的技术方式。比如,用户画像就是一种微观环境中的大数据。用户画像所得出的结论与用户的个人数据之间未必形成因果关系,大多数情况下是相关关系。收集用户的个人数据越多,所能形成的用户画像就越准确。这些个人数据之间的相关关系的发现,是人类智力所不能达到的,通过算法的分析,找到相关关系,从而给出匹配结果,可以看作是一种大数据技术的应用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈