钟义信老师在其提出的“信息科学”中,将信息分解为三个部分:性状特征、运动状态及变化方式的形式、含义和效用。包括形式、含义与效用三部分内容的信息,被其称为“全信息”。但是如果对照上面给出的信息的定义,就会发现一个信息的效用并不包含在这个定义之内。所以,严格起见,后续对钟义信老师的框架作如下修改:信息包括信息的形式与含义,信息的效用等内容则为该信息的附属信息中的一部分。一个信息及其附属信息一起构成以该信息为主体的“广义全信息”,或简称“全信息”。而在“全信息”这个概念之下,扮演主体角色的信息本身可以被称为全信息中的“主信息”。
将上述关于信息的概念阐述重新表述如下:
“广义全信息”简称“全信息”,包括“主信息”及该主信息的“附属信息”。
“主信息”包括信息的形式与含义,是对人所认识的对象(包括物质与精神)运动状态及变化方式的人工表述。
“附属信息”是针对主信息而言的,是涉及主信息的效用等不同方面的相关的附属于主信息的信息。
没有主信息,附属信息通常不再具有意义。但是,主信息是可以脱离其附属信息而被使用的。在这种情况下,我们便称之为信息,而不再使用“主信息”这个相对于“全信息”和“附属信息”而言的表述。
这样定义的信息(也就是一个全信息中的主信息),具有如下的特征:
(1)信息是对象在人的意识上的反映,既具有客观性,又具有主观性。越复杂的信息,其携带的主观色彩通常就会越重。
(2)信息绝大部分是非结构化的,结构化的(或者说可以被结构化的,包括最简单的数值数据)只占很少一部分。
(3)不同人对同样的对象可以有不同的反映,即获得不同的信息。或者说,从客观的角度来看,每一个信息对对象的表述通常是不完整的或残缺的。这种残缺,也是信息主观性的一种反映。
(4)由于信息所反映的对象之间会有复杂的关联关系,因此信息之间也是相互关联的。
(5)人获取信息是有目的性的,这种目的性必然反映在信息本身的表达上,这也是信息的主观性的一种表现。
(6)人的目的性使得信息也可能具有一定的目的性,由此,信息具有产生后续变化的内在能动性。即信息是“活”的,具有一定意义上的能动性去“推动”人去达到某种目的。
(7)抛开信息之间的关联关系,孤立地看每一个信息,认识主体获取的信息具有内在的特定结构,尽管对于非结构化信息而言,这些结构不像结构化数据的结构那样规则而严谨。这些结构可能反映如下的特征:获取信息时对象和主体所处的环境和条件(时间、地点、手段等);对象自身及其运动变化的结构性特征(这是信息的主体内容);主体获取信息的主观考虑;信息被使用的情况等。这些结构既可能体现在“主信息”中,也可能以主信息的“附属信息”的形态存在。
(8)信息在复杂度上跨度极大。复杂的信息可以解构为多个具有独立并且相对完整意义的简单信息。这些具有独立、相对完整意义的简单信息,被称为“信息片段”。最典型信息片段的形态的就是微博。每一条微博都很简短,但是具有相对完整而独立的意义。
(9)信息是以多种形态存在的。认识主体获取的信息,有些是直接以主体的意识形式存在于大脑之中的,有些则是存在于主体之外的其他物质载体上的,如文字、录音等。
认识主体所认识的对象既包括物质实体,也包括逻辑/精神对象,如银行账户,会议,项目,哲学、宗教、民主和自由等抽象的主题概念,以及意识活动本身等。而且主体自身也是作为一个被认识的对象而存在的。认识主体对认识对象性状特征、运动状态及变化方式的认识可以分为以下四个基本类别。
(1)对对象自身性质特征的描述。这种描述其实就是对象在认识主体的意识中的一个映象。一个比较完整的映象,通常会以非意识的外在信息形态存在于其他载体之上,而不是仅仅存在于主体的意识中。
(2)对对象自身运动变化过程的描述。这种描述通常会以非意识的外在信息形态存在于其他载体之上。
(3)对对象之间关系的描述。这种关系也会反映为信息(对象在认识主体中的映象)之间的关联。这种关系大多以意识的形态存在于人脑之中。复杂的关系则会以非意识的外在信息形态存在于其他载体之上。
(4)对对象之间相互作用(过程)的描述,如人员招聘面试过程的描述。这种信息通常会以非意识的外在信息形态存在于其他载体之上。
与信息紧密相关的一个概念就是知识。这两者之间的关系在学术界也众说纷纭。通常来讲,信息这个概念更宽泛,可以是认识主体对对象简单的反映,也常常包涵认识主体对对象深入复杂的认识。而知识通常是指经过复杂的智力处理而获得的对对象的复杂认识。所以,本书更倾向采用知识被包含在信息之中的看法,它能够更好地包容人们在现实生活中已经形成的对这些概念的使用,同时又不损害讨论的严谨性和有效性。比如,当知识以文档形式存在的时候,我们常常也称之为信息。
在下面的讨论中,除非特别声明,信息将包涵知识在内。
钟义信老师在其提出的“信息科学”中,将信息的形式化表达称为“语法信息”,将信息的含义内容称为“语义信息”,将信息的效用价值内容称为“语用信息”。这个语用信息就是前面定义的广义全信息中附属信息的一部分。语法信息与语义信息则是广义全信息中的主信息的两个侧面。
其中,“语法信息”是通过符号的组合编排来承载信息的具体形式化编码。如前所述,全信息中形式化的“语法信息”正是山农信息论研究的对象。在这里使用“语法”来描述这部分内容可能会造成困惑。因为这里的“语法”并不是指构成语义含义的自然语言层面的语法规则,是而指底层形式化编码的规则。所以,“语法信息”中的“语法”并非与“语义”相关联,与“语义信息”中涉及的自然语言层面的“语法”并不是同一个概念。因此,为了避免误解,也为了避免概念层次上的混淆,下面将用信息的“形式化表达”来取代钟义信老师在其信息科学中定义的“语法信息”。(www.daowen.com)
形式化表达就是按照一定的规则用抽象的符号对信息进行编码后的结果。信息的这种形式化表达与在信息技术中对信息所做的底层存储和传输等操作有直接的关系。山农的信息论使用统计方法将其作为研究对象,就是为了给信息通信系统的分析与设计提供一个定量的分析工具。但信息的这种形式化表达对于信息在底层的存储、传输和显示之外的高层处理过程,如信息管理与信息应用,并没有直接的影响,所以不在本书的讨论范围之内。
钟义信老师定义的“语义信息”是指在一个信息对于认识主体所具有的含义。但是,信息的概念是大于语言的,因为信息还包括图像等其他具体的形式,所以,将信息的含义用语言学中的“语义”来定义有些狭窄,尽管许多信息的含义包括语义内容。另外,一个信息的“含义”再用“信息”这个概念本身来反过来说明也有些不妥。所以未来为了避免概念层次上的混淆,我们将信息具有的含义称为一个信息的“含义内容”。信息的“含义内容”包括语义内容,但并不仅限于此。
这里讲的一个信息的“含义内容”,指的是其显性、直接的含义,而不是隐性、间接的含义。一个信息的显性、直接的含义,是由信息的内容直接表达的;而其可能拥有的隐性、间接的含义,通常是通过它与其他信息之间的关联而显现的。比如一张人物照片,它的显性、直接的含义,就是照片直接反映出来的这个人物的外在特征;而这个人物职业等情况,则是这张照片的隐性、间接的含义,要通过其他的信息与这张照片发生关联才能显现出来。
下面简单分析一下信息的含义内容在第3章中讲过的计算机应用的三个阶段中的作用或影响。
在计算机的数值计算应用中,计算机所处理的数值数据只具有很单一的含义内容,我们称之为“微观数据”。在应用中,数据的含义内容由其数值直接显性地表达出来。所以,在这类应用中不必对被处理的数据所具有的含义内容加以特别的关注。
在计算机面向结构化数据的应用阶段,计算机处理的是在有限维度语义空间中定义的结构化数据。与数值计算中的数值数据相比,这样的数据的语义虽然趋向复杂,但是其语义的含义依然十分明确清晰。我们称之为“中观数据”。利用有限维度语义空间,即可以对结构化数据进行完善的管理操作。而关系型数据库正是可以实现有限维度语义空间并对其进行操作的有效工具。当然,放入关系型数据库的不都是结构化数据,结构化数据也不必然要放入关系型数据库。结构化数据的语义内容,在这里既是被管理的对象,也成为对数据进行有效管理的基本手段,因而也构成了数据应用的基础。
当进一步面对非结构化信息的时候,由于信息的含义内容的多样性及复杂性,我们无法用有限维度语义空间来对其进行完整严格的描述。我们称这些非结构化信息为“宏观信息(数据)”。如果一定要建立一个语义空间来比较完整地描述一般性非结构化信息的话,必然会遇到语义的不确定性与语义的开放性所带来的不可克服的困难。正如在第1章中对计算机本质的分析中指出的那样,问题的不确定性与开放性都是计算机在本质上所无法有效面对的。所以仅仅从语义的角度,试图对非结构化信息进行有效的管理与操作是不现实的。这是目前很多相关研究陷入的误区。这些研究试图用语义空间或其他的仅仅基于语义的方法来解决非结构化信息管理和应用中的一切,至少是核心问题。
要对非结构化信息进行有效的管理和操作,不仅需要超越语义内容的视角,而且要超越信息(直接)含义内容的视角,因此在前面引入了“全信息”及其中的“附属信息”的概念。
钟义信老师在其信息科学中引入“语用信息”的概念,原本是指信息的效用价值,属于这里定义的“附属信息”中的一部分。谈到效用价值,它必然与具体主体的主观感受密切相关。效用价值既因不同的主体而不同,对同一个主体而言,也会因在不同的条件下而有差异,因此,一个信息的效用价值缺少基本的稳定性。所以,下面将回避信息的主观效用价值,讨论广义全信息中附属信息的其他组成部分。
在理解和使用信息的时候,除一个信息的直接形式化表达及这个形式化表达所携带的直接含义内容外,很多与这个信息直接或间接相关的附属信息,对于有效使用该信息(主信息)也有不同程度的意义。
这些附属信息包括但不限于以下几个方面的信息:主信息表征的对象的其他相关信息;提取主信息的认识主体的其他相关信息;获取主信息时,其表征的对象及认识主体所处的环境与条件;认识主体获取主信息的手段与相关主观意图;主信息的使用限制,比如文件的密级;主信息的编码形式,如Office的Word文档或PPT文档格式等;主信息被使用的情况;对主信息的标签注释;主信息或其反映的对象、事件、活动等在认识主体的存在与活动空间中的定位;不同主信息彼此之间的关联。
从信息含义内容的角度来看,这些附属信息可以被理解为是帮助揭示主信息的隐性、间接的含义内容的信息。
在现在的计算机系统中,一个文档的属性就属于该文档的附属信息的一部分。在理解和使用一个信息的时候,常常要利用部分或全部上述附属信息。所以,从这个角度来看,只有把相关的附属信息包括进来,才能够有效地管理与使用一个(主)信息。
上述与一个主信息相关的附属信息,对于主信息的具体实际应用有密切关系。比如,在某些场合会查看使用一个文档的属性信息。所以,将这些能够对(主)信息应用起到重要支撑作用的附属信息称为该信息的“应用支撑信息”,简称“支撑信息”。主信息(信息的形式化表达与含义内容)连同它的“支撑信息”一起构成了“狭义全信息”,后文也简称其为“全信息”。由于“支撑信息”也是信息的一种,因此与其所依附的主信息一样也包括了形式化表达与含义内容。
需要指出的是,主信息的支撑信息中的一些内容也可以出现在主信息自身当中,如本节前面对信息的特征分析中第(7)条中所指出的那样。所以,在主信息与其支撑信息之间并不存在一个严格的界限。
在主信息的附属信息中,除上述的支撑信息外,还可以包括效用信息等其他的内容。但是由于效用的不确定性,以及其对信息的应用过程影响有限,因此后面不考虑这个因素。
上面对“支撑信息”和“全信息”的定义,与钟义信老师给出的相关定义有所不同。这里给出的定义的出发点是面对信息的应用过程,而抛开了信息的应用效果(效用价值)这一不确定因素。在后面的分析中将能够看到,这种定义会更有效地支撑对复杂的非结构化信息的管理和应用。
钟义信老师提出的“信息科学”,在定义了全信息后,主要对语法(即形式化表达)、语义和语用信息的“信息量”给出一种量化计算方式。实际上,除了语法信息的量化计算,即山农信息论涉及的内容,对通信等相关过程有重要意义之外,语义与语用信息的量化计算对于信息的高层处理应用过程并没有太大意义。比如,在获得一个文档的时候,会直接利用它来实现目的,而不会画蛇添足地去计算一下该文档的语义信息量有多大。所以在信息的高层处理应用中,我们真正关心的是信息的有效管理及在此基础上的有效应用,而不是定义一个方法去量化地计算“信息量”的大小。
因此,后续关于全信息的讨论将集中在信息的有效管理方法的探索上,以及基于这种管理而对信息的有效应用上,而不去关注信息的量化计算方法。这是本书后续的讨论与钟义信老师的“信息科学”的一个根本的方向性区别。
综合前面的讨论,可以把信息、广义及狭义的全信息的结构用图4-1形象地表示出来。计算机面对的信息的基础是其形式化表达。它支撑信息的基本存储、传输与显示过程;在此之上,是与信息的高层处理应用直接相关的信息的含义内容;该信息的附属的支撑信息则支撑它的含义内容被充分有效使用。
本书引入的全信息概念,是对一个独立信息的全面描述框架,目的是为对复杂信息的管理与支撑全面智能化应用奠定基础。在此基础上,在下一节将进一步对一个信息从生成到使用的动态过程和全生命周期进行分析。
图4-1 信息的结构示意图
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。