来自物理世界的大数据又被称为科学大数据,科学大数据主要来自大型国际实验:跨实验室、单一实验室或个人观察实验所得到的科学实验数据或传感数据。最早提出大数据概念的学科是天文学和基因学,这两个学科从诞生之日起就依赖于基于海量数据的分析方法。由于科学实验是科技人员设计的,数据采集和数据处理也是事先设计的,所以不管是检索还是模式识别,都有科学规律可循。例如希格斯粒子,又称为“上帝粒子”的寻找,采用了大型强子对撞机实验。这是一个典型的基于大数据的科学实验,至少要在1万亿个事例中才可能找出一个希格斯粒子。从这一实验可以看出,科学实验的大数据处理是整个实验的一个预定步骤,这是一个有规律的设计,发现有价值的信息可在预料之中。大型强子对撞机每秒生成的数据量约为1PB。建设中的下一代巨型射电望远镜阵每天生成的数据量大约在1EB。波音发动机上的传感器每小时产生20TB左右的数据量。
随着科研人员获取数据方法与手段的变化,科研活动产生的数据量激增,科学研究已成为数据密集型活动。科研数据因其数据规模大、类型复杂多样、分析处理方法复杂等特征,已成为大数据的一个典型代表。大数据所带来的新的科学研究方法反映了未来科学的行为研究方式,数据密集型科学研究将成为科学研究的普遍范式。
利用互联网可以将所有的科学大数据与文献联系在一起,创建一个文献与数据能够交互操作的系统,即在线科学数据系统,如图1-1所示。(www.daowen.com)
图1-1 在线科学数据系统示意图
对于在线科学数据,由于各个领域互相交叉,不可避免地需要使用其他领域的数据。利用互联网能够将所有文献与数据集成在一起,可以实现从文献计算到数据的整合。这样可以提高科技信息的检索速度,进而大幅度地提高生产力。也就是说,在线阅读某人的论文时,可以查看他们的原始数据,甚至可以重新分析,也可以在查看某些数据时查看所有关于这一数据的文献。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。