大数据的基本处理流程可分为三个阶段:数据的抽取与集成、数据分析以及数据解释。数据的抽取与集成是开启数据处理的第一步,后续的分析以及解释都以数据这一对象为前提。大数据这一概念蕴含着数据本身多样性的特点,但是最终呈现的大数据的多样性比之未经处理的数据的多样性相对单一。最终被分析的大数据是被数据收集者清洗过的数据,原始数据是繁杂的,存在着大量的异构。原始数据是海水,没法直接成为人类可饮用的淡水。
从海水变成可饮用的蒸馏水,需要从数据源进行抽取与集成,进行数据清洗,同时处理大数据时代模式和数据的关系,从中提取关系和实体,经过关联和聚合之后采取统一定义的结构进行储存[41]。在数据抽取与集成中体现行为者选择自由的包括:①数据源的选择;②数据清洗颗粒度的选择;③大数据时代模型的选择;④关系和实体的选择;⑤关联和聚合的标准。选择体现了行为者的意志自由,在选择的过程中同时附着着行为者的劳动,以数据清洗为例,面对数据源中大量的数据,其中大部分数据充斥着数据噪声,噪声的存在极大降低了数据的使用价值,无法对其进行分析。这时就需要对数据进行清洗,行为者需要选择数据清洗的粒度,对大量的异构数据进行选择,抽取出符合主观标准的数据。由于数据的繁杂,数据粒度的选择直接决定了数据的质量,信息粒度过细会导致真正有用的信息被过滤,粒度过粗则无法达到清洗的目的,导致抽取的信息中仍然会存在大量无用的信息。数据清洗体现了数据行为者在质与量方面取舍的智慧。在自然权利观的视域下,只要某人使某物脱离了自然状态,其就可以拥有它,劳动即是实现脱离自然状态的途径,它使得自然之物脱离共有的状态。[42]劳动不只是确权的工具,也是人作为目的延伸的必然含义,因为人对自我拥有所有权,劳动作为自我的延伸,自然对劳动所产生之物享有所有权。在区分个人数据与非个人数据的前提下,应该明确数据收集者对于收集的非个人数据享有产权。随着识别技术的发展,非个人数据也可能被重新识别,将权利赋予收集者,意味着数据收集者对于非识别数据具有控制的义务,有利于监管部门进行合规监督。(www.daowen.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。