理论教育 网络信息资源概述及公众需求的档案资源建设与服务研究

网络信息资源概述及公众需求的档案资源建设与服务研究

时间:2023-08-12 理论教育 版权反馈
【摘要】:也有学者认为,“网络信息资源”有广义和狭义之分。网络信息资源形式多样,内容丰富,依据不同标准可以划分为以下类型:依据信息的网络传输方式可分为:①WWW信息。这些都是网络资源存档面临的重大难题。

网络信息资源概述及公众需求的档案资源建设与服务研究

学术界关于网络信息资源的定义有很多种:网络信息资源即网络信息,是“以数据库和网络为基础,以磁盘、光盘为存储介质,通过联机系统及网络向用户提供服务的”[69];网络信息资源也称网络文献,是“通过计算机网络发布、传递和存储的各种信息资源的综合”[70],“是经过计算机网络利用的多种信息资源的总和”[71],是“以电子资源数据的形式,将文字、图像、声音、动画等多种形式的信息存储在光、磁等非印刷质的介质中,利用计算机通过网络进行发布、传递和存储的各类型信息资源的总和”[72]。也有学者认为,“网络信息资源”有广义和狭义之分。广义的网络信息资源不仅包括在网络上发布的信息资源,还包括与这些信息资源的产生、发布、传播有关的技术、人员、设备、资金等;狭义的网络信息资源指的是一切可以利用的网上信息资源,能够满足人们日常生产生活以及科研需要的网络资源[73]。本书所指的网络信息资源归档是基于狭义的网络信息资源的含义。

网络信息资源形式多样,内容丰富,依据不同标准可以划分为以下类型:

(1)依据信息的网络传输方式

可分为:

①WWW信息。它依托于超文本多媒体,通过超文本传输协议(HTTP)传输文本、声音、图像等信息,并以网页形式表现出来。

②FTP信息。它建立在文件传输协议(FTP)的基础上,用户通过在本地计算机上安装客户端程序,从而将计算机与全球运行FTP的服务器相连,实现对服务器上信息和程序的访问。

③Gopher信息。在Web出现之前,Gopher曾是互联网上最流行的信息查找系统,它为用户提供互联网文件索引,帮助用户检索和利用信息。

④Telnet信息。它曾是众多图书馆检索联机公共检索目录(OPAC)的主要方式,它允许用户在授权情况下使用远程计算机的各种开放式的资源(包括硬件资源和软件资源等)。

(2)依据信息的交流方式[74]

可分为:

非正式出版信息,指流动性、随意性较强的,信息量大、信息质量难以保证和控制的动态性信息,如电子邮件、专题讨论小组和论坛、电子会议、电子公告板等工具上的信息。

②半正式出版信息,指受到一定产权保护但没有纳入正式出版信息系统中的信息,如各种学术团体和教育机构、企业和商业部门、国际组织和政府机构、行业协会等单位介绍宣传自己或其产品的描述性信息。

③正式出版信息,指受到一定的产权保护,信息质量可靠,利用率较高的知识性、分析性信息,用户一般可通过万维网查询到,如各种网络数据库、联机杂志和电子杂志、电子图书、电子报纸等。

(3)依据信息的组织形式

可分为:

①文本信息,主要指静态的信息,包括文本、图像等多种形式,如Web网页信息、FTP信息等。

②超媒体信息,即通过非线性网状结构对块状的多媒体信息(包括文本、图像、视频等)进行组织和管理,从本质上来说,它是超文本的延伸,在完成超文本全部功能的基础上,进一步实现对多媒体信息和流媒体信息的处理。

③数据库信息,它是Web网页与数据库相结合而形成的网络数据库,用户可以通过使用检索工具和检索语音,实现对所需信息的检索和利用。

(4)依据信息的内容层次[75]

可分为:

①指示信息,即一个信息单元地址,如一个超文本链接(以URL表示)、数据库名、书目参考、特殊的关键词间联系等。

②信息单元,可以指示信息表达的最小单元,如文献中的某一行、某一段、某一章、一个目次页或一份统计表等。

③文献,是相关信息单元的集合,如FTP文件、Web网页、数据库的记录、电子邮件、信件、文章、照片等,文献由若干信息单元以及一些特定的指示信息构成。

④信息资源,指相互关联的文献集合,如一个数据库、一份杂志、一本书、一本电话簿、一张光盘等。(www.daowen.com)

⑤信息系统,指一组相关的、经过标引和建立了交互参见的信息资源的集合,如一个虚拟图书馆、一部百科全书。信息系统还包括了不同信息资源之间的相互关联的指示信息。

从上述网络资源类型的划分可以看到,与传统媒介的信息资源相比较,网络资源具有复杂性特点,主要表现在:

①数量庞大,增长与传播迅速。截至2015年12月,我国域名总数为3102万个,其中“.cn”域名总数年增长47.6%,达到1636万个,在中国域名总数中占比为52.8%。此外网站总数为423万个,年增长26.3%[76]。可见,我国的网络资源正以迅猛之势逐年剧增。随着互联网技术的迅速发展,网络资源已经成为一个海量的信息资源库。信息传播呈现出动态性和实时性的特点,依托于无线电通信技术和卫星通信技术,网络资源的传播速度非常快,任何存在于互联网的网络资源都可在短短数秒内传递到世界每个角落[77]

②内容丰富,形式多样。从内容上看,网络资源的内容基本覆盖了人类知识的全部领域,既包括人文社会、自然和技术等学术资源,也包括各类社会服务、休闲娱乐等非学术资源;从形式上看,网络资源在传统文献资源的数字、文字和图像等表现形式的基础上,音频、软件和数据库等形式增加迅猛。

③数字化存储,数据异构严重。网络资源在存储形式上由纸质载体的模拟信息转变为磁性载体的电磁信息或光载体的光信息,以数字化形式存储,存储的容量大、密度高。同时,由于网络资源以文本、图像、音频、软件和数据库等多种形式存在,各种数据之间存在着严重的异构现象。

④广泛分布,状态无序。由于互联网具有共享性和开放性的特点,任何人可在任何时间、任何地点在网络上存取信息,这些信息往往未经过科学的整理和编排,形成一个丰富而繁杂的海量资源库,为用户利用网络资源带来了众多不便。

⑤信息易变,真实性难以保障。互联网是一个实时更新的动态系统,其网络资源也是处于不断变化和更迭之中。同时,由于互联网的开放性和共享性,网络资源的质量和真实性都难以保证。这些都是网络资源存档面临的重大难题。

由于网络的规模巨大及上述特点,没有任何一个组织能独立完成对所有网页的收集和保存,因此,世界上网络资源归档项目大多只针对部分网页进行。另外还有法律方面的挑战,主要是与网页内容相关的版权、责任和隐私等问题。此外,国际上没有专门的组织对网页收集和保存标准或者策略进行规范和指导,导致收集的网页数量和保存情况千差万别。表5-2显示了截至2013年年底全球已经归档保存的Web资源的规模[78]。其中,美国的Intemet Archive自1996年成立起就定期收集并永久保存全球网站上可以抓取的信息,网页超过了1500亿个,存储容量达5.5PB,已成为全球最大的网络信息资源存档项目。

表5-2 全球主要国家网络资源档案归档项目概况

据中国互联网络信息中心(CNNIC)在2016年1月的报告称,截至2015年年底,中国国家顶级域名“.cn”总数为1636万,“.cn”域名已超过德国国家顶级域名“.de”,成为全球注册保有量第一的国家和地区顶级域名(ccTLD)。中文网络信息资源归档的重要性不言而喻。由于网页数量巨大,网络信息资源归档通常采用网络爬虫自动采集,中国两个大型的Web归档项目,北京大学的Web Info Mall和中国国家图书馆的WICP都采用此方法。Web Info Mall是中文网络资源收集和保存规模最大、最全面的存档站点,它提供长久存储和访问历史信息等功能。截至2010年年底,Web Info Mall归档了自2001年以来的30多亿个中文网页、800多万域名的2000万个网站。WICP保存了自2003年以来所有的中国政府网页(gov.cn),它们来自8万多个政府网站,还有电子期刊和电子报纸等,容量超过18TB。本书基于Web Info Mall向全球提供的两个中文网页测试数据集,分析中文网页、网站以及域名的大小,中文网页、网站中主要顶级域名的分布以及在中国国家码顶级域名“.cn”中二级域名的分布情况。

通过Web Info Mall提供的中文网页测试集,对我国现有网络信息资源的总量、分布与类型进行了抽样分析,见表5-3[79]

表5-3 中文网络资源测算基数分析表

结合表5-3可知,cwt100g收集了2004年6月的17045个主机和4737349个网页,容量约90GB。通过抽取链接分析这组数据,得知69%的网页都链接到相同站点,链接到其他网站的网页中有81%链接到本地(省)网站,平均每台主机上的网页数为278个。cwt200g收集了2013年5月的29184个主机和32223479个网页,容量约197GB,平均每台主机上的网页数是1104个。通过对上述网络资源的数据挖掘与整体分析(表5-4、表5-5、表5-6、表5-7)[80],可以得出以下结论:统计数据表明,经过多年的高速增长,中国网络信息资源的总量高速增长,与世界先进水平的差距越来越小。其中,虽存在发展不均衡的问题,但与全球网络信息资源相一致的是,商业类网站的比重独大。此外,在中文网站中“.com”和“.cn”的网络域名占了大多数,其次“.com.cn”和“.gov.cn”的比重也在增加,说明我国在商业领域和政府信息化方面取得了长足的进步。

表5-4 网页顶级域名的分布统计

表5-5 主机顶级域名的分布统计

表5-6 网页在国家码顶级域名下(.cn)的二级域名分布统计

表5-7 主机在国家码顶级域名下(.cn)的二级域名分布统计

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈