理论教育 基于三层数据划分的偏差认识与优化

基于三层数据划分的偏差认识与优化

时间:2023-07-05 理论教育 版权反馈
【摘要】:“棱镜门”事件的曝光,一度引发国际层面对数据安全问题的担忧。如果出于大数据层面的担忧,应该禁止或者限制所有类型数据的出境,以避免多类型、大数量的数据外流后,被大数据技术分析出不利于国家安全的情报。然而,个人数据的价值释放是以统计数据、大数据为基础的,特别是大数据。比如,前述用户画像的例子,微观层面对个人数据的价值挖掘是基于大数据技术所实现的。

基于三层数据划分的偏差认识与优化

数据治理以大数据为背景,但大数据技术并未充分普及,成熟度也不够。很多研究和讨论是在统计数据的基础上展开的,从而很难得出准确的结论。杭州互联网法院在“微信数据权益”案中认为,平台数据“可以分为两种数据形态:一是数据资源整体,二是单一数据个体。网络平台方对于数据资源整体与单一数据个体所享有的是不同的数据权益”。区分单一数据、统计数据和大数据后,可以简单地用成本收益的方法进行分析,对比数据价值的释放和数据安全问题的产生,能够粗略归纳出一些结论。单一数据的成本远大于收益(价值小而风险大),因此对单一数据的规制力度较强。统计数据的成本与收益大致相当(价值明显而风险也明显),因此对统计数据的规制力度适中。大数据的成本远小于收益(价值非常明显而风险并不具化),因此对大数据的规制还不明确,或者说执行并不到位。比如说,跨境数据流动问题的产生,应该是大数据层面的担忧。由于大数据可以通过海量数据分析得出有价值的情报,所以各种类型的数据出境后一旦被大数据分析,可能对国家安全形成负面影响,因此需要对整体跨境数据流动进行一致性的限制。相反,如果是基于统计数据的担忧,只需要对特定领域、特定类型的数据作出跨境限制。我们有关数据安全问题的讨论,如果针对的是大数据,那么究竟有何种现实的威胁,还缺少具象化的论证,也缺少具体数据和案例的佐证。大多数担心的安全问题是基于想象而产生的。比如,大数据层面的跨境数据流动,能够产生什么样的风险,并没有现实的、具体的案例予以佐证。“棱镜门”事件的曝光,一度引发国际层面对数据安全问题的担忧。“棱镜门”事件所涉及的数据其实是在统计数据的层面——通信数据的集合,以及单一数据层面——对特定对象通话内容的直接侦听。很多国家对于跨境数据管理针对的是个人数据,比如欧盟通用数据保护条例》(GDPR)的规定,防止的是个人数据的外流,其目的是保护个人基本权利。如果出于大数据层面的担忧,应该禁止或者限制所有类型数据的出境,以避免多类型、大数量的数据外流后,被大数据技术分析出不利于国家安全的情报。[20]

按照三层数据进行分析,可以为如今数据治理中出现的一些困境找到逻辑基础。数据治理问题的一些难点实际上是应对不同层面的数据所产生的。正确认识和理解这些困境,才能准确地发现问题,作出科学合理的制度安排。

个人信息保护问题的争议之所以产生,是因为诸多个人信息保护制度构建,是以单一数据为对象的,避免的是单一数据的负外部性。这也是为什么以欧盟为代表的个人数据保护法规,都是以个人基本权利的保护为基础的。这在很大程度上是为了规避单一数据负外部性的数据安全问题。然而,个人数据的价值释放是以统计数据、大数据为基础的,特别是大数据。比如,前述用户画像的例子,微观层面对个人数据的价值挖掘是基于大数据技术所实现的。大数据的特点是对数据类型、数量的高度需求,数据越多、越丰富,越能释放价值。这一点与个人信息保护的最小化原则、必要原则等相冲突。从技术特点来看,统计数据、大数据并不关注具体自然人的身份信息——虽然大数据技术能够比较容易地确定自然人身份,但这并非运用大数据技术的目的,也并非商业模式之基础。这一点又与个人信息保护以能够识别自然人身份的信息为调整范围有冲突。个人信息保护中,数据价值和数据安全所规范的数据并非同一层次的数据,因此而产生的矛盾很难调和。在这一点上认识不清,就很难形成共识和定论。(www.daowen.com)

数据流通之所以难以形成规模,也是同样的原因。数据流通应当以大数据为基础,而目前大数据技术的应用和普及尚不成熟。除了超大型互联网平台,企业与企业之间的数据需求主要还是统计数据层面的。统计数据的类型化很强,需要确定类型数据的量化集合。买卖双方存在博弈,需要满足双重偶然性,才能形成交易。统计数据的技术不能发现相关性,数据需求基于因果关系而产生,因此数据需求类型非常固定,价值体现十分具化。有价值的数据卖方不想卖,无价值的数据买方不想买,这种价值仅仅体现于简单的情报价值,或者能够直接服务于买方的业务模式,因此数据交易只能发生在同业竞争者之间,而双方由于竞争关系的存在,往往缺乏交易动能。现在对数据交易的促进主要是在“需求量”上求解,而忽视了“需求”本身并不存在——认为问题是交易量不够,进而忽视了交易需求本身是否存在。对于大数据而言,情况就大为不同,因为大数据的需求是各种类型的海量数据,数据类型化的需求并不强烈。数据交易的基础能够广泛达成。举一个简单的废品回收利用的例子,可以更形象地说明这个问题。利用不同的技术手段,对废品回收利用的市场需求会发生较大的变化。假定某企业需要回收盛装可乐的易拉罐,如果技术水平较低,需要回收的是形状相同、材质相同、容量相同的易拉罐,进而清洗处理后再次利用。这时企业回收所需要的易拉罐类型非常固定,必须符合双重偶然性,交易才能发生。如果技术水平提高,企业通过熔化重塑的技术可以制造新的易拉罐,那么企业回收需求就仅限于材质,比如必须是铁器或者铝器等,但是对于形状、容量等就没有要求了。这时交易的双重偶然性大大提升,交易市场形成的可能性变得很高。假如能够成熟地运用3D打印技术,那么材质的限制也可以打破,企业回收任意材质的废品,都可以通过3D打印制成易拉罐,那么连双重偶然性的交易基础都不再需要。交易的可能性几乎普遍存在,交易双方很容易达成一致,从而能够广泛地形成交易。通过这个案例的假设,可以分析数据流通的实际障碍,并非绝对地是由于数据权属不清所造成的。如果大数据技术得不到充分普及,数据交易就难以形成市场规模。正如同3D打印技术不够成熟和普及,在一定程度上限制了废品回收的市场规模。

公共数据资源开放的重要性受到各方关注,也从另一角度佐证了我们正面临的是统计数据的问题,而非大数据的问题。正是因为受目前的技术水平限制,导致数据需求停留在统计数据层面,数据本身的价值就尤为重要(能够建立因果关系)。不难理解,统计数据中最具价值的数据由政府部门、公共机构等所掌握。根据前述分析,这类数据的交易基础、流通基础广泛存在,相关行业、相关领域对这类数据的需求十分明确,很容易通过主管部门的划分找到对应的数据资源。然而,如果大数据技术足够成熟,数据分析能力持续提高,对数据资源的特定化、类型化的要求降低,可能同时也会使得公共数据资源开放的需求相应下降。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈