理论教育 如何让4.7主信息更好的结构化?

如何让4.7主信息更好的结构化?

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:在第4.6节中主要分析了主信息的支撑信息的结构与处理方法,对于主信息自身而言,也有一个如何做适度结构化处理进而为对其做有效管理与应用提供基础的问题。这些不同含义内容的信息可以根据一个类型中的信息的共同特点,而将其共性的部分做结构化处理,其余部分依然以非结构化的形式存在。所以,它们应该被看作是对主信息整体的标注。

在第4.6节中主要分析了主信息的支撑信息的结构与处理方法,对于主信息自身而言,也有一个如何做适度结构化处理进而为对其做有效管理与应用提供基础的问题。

非结构化信息的种类繁多,对这些信息做结构化的处理,首要原则就是要对信息分类。这种分类不是简单地根据其信息表示方法分为文字信息、语音信息及图像信息等,而是要根据信息的内容特点来进行分类。就像处理结构化数据那样,是根据不同的数据结构设计不同的表,即用不同的有限维度语义空间来对数据进行管理。

在众多不同类型的信息中,从内容特点来看,文字语音与文字文本应该属于同一大类的信息,所以下面对它们不再作区分而统称为文字信息。

根据不同应用场景下含义内容的不同,可以把文字信息划分为众多的类型。比如通知类型的信息、事件(如会议)记录类型的信息、阐述类型的信息(如论文、报告)等。这些不同含义内容的信息可以根据一个类型中的信息的共同特点,而将其共性的部分做结构化处理,其余部分依然以非结构化的形式存在。

比如第4.6节提到的会议通知,就可以做成由结构化与非结构化两部分组成的一个标准的格式。其中,结构化部分可以用有限维度语义空间来描述。图4-9中左下侧是会议通知的结构化部分,左上侧则是非结构化部分。

978-7-111-60062-6-Chapter04-10.jpg

图4-9 文字类信息的结构化处理(杜昭提供)(www.daowen.com)

信息分类的粒度会因为可能的应用场景的不同而不同。就好像在结构化数据的管理中,要根据应用的情况来建立不同的数据表一样。粒度划分得细,可能会使信息的管理准确度和灵活性提高,但是同时会使信息应用过程中系统复杂度增加和系统效率大幅下降,甚至带来用户理解上的困难。粒度划分得粗,信息管理的准确度和灵活性会降低,但是系统的复杂度、可理解性则会改善。由于非结构化信息本身的复杂性,这种分类划分比对结构化数据的处理难度要大。

对信息分类以后,每一类信息中哪些内容应该用结构化来表达,也是一项需要结合具体的应用逐一分析的工作。比如,电子病历的结构化与普通办公文档就会有很大的区别。这部分结构化字段(语义维度)的设计,既是这类信息共性的概括,又是区分本类信息与其他类信息的典型特征。

在对每一类的非结构化信息进行结构化设计后,信息通常还会有一部分以非结构化形态存在。对这一部分的信息,可以进行进一步的处理,即采用标签的方式来对主信息作标签注释。对于文字化信息,这些标签注释既可以是主信息非结构化中的一些关键词,也可以是主信息的结构化部分中的一些字段。所以,它们应该被看作是对主信息整体的标注。而这些标注同样可以用有限维度语义空间来描述,比如用人名、地名、时间、组织名称等作为空间的维度。

对于非文字信息,标注可能是文字,也可能是信息自身存在的特定信息空间中的特征参数。比如在音频领域,Asif Ghias等人于1995年提出了基于“内容”的音乐检索算法[3],随后许多人参与到这个领域的研究之中,提出了对音乐作标注的不同方法。在2001年发布的MPEG-7标准中,对于音频信息的标注包括以下特征类型:频率轮廓线、音频对象、音色和声、频率特征、振幅包络、时间结构、空间结构、声波近似值(通过哼唱一段旋律或发出一种声音效果来生成)、原型声音(典型的用例为实例查询)、声源和它的特征与模型、文本内容(如歌词)等。上述音频信息的特征既包括典型的语义内容(如文本),也包括以非语义形式存在的特征,如音色、振幅包络等。

可以将这些非语义形态特征作为“广义”的“语义”概念,而文字语义则称之为狭义语义。可以用广义语义概念独立地,或者与狭义语义概念组合在一起,构成有限维度离散空间,用来描述和管理包括这些参数在内的信息标注。我们将这样的空间称为“广义有限维度语义空间”。对于图像信息,同样存在狭义语义之外的广义语义概念的图像空间参数特征可以作为信息的标注,比如纹理、空间结构等。

因为对一个信息的标注就像文档的属性一样,通常是作为主信息的附属信息而存在和被使用的,所以在前面的支撑信息的讨论中,把这些标注信息划入主信息的支撑信息。这些具体标注信息表现了一个具体的信息的关键特征,既可以用于对本信息的检索,也可以用于分析本信息与其他信息的内在关联关系等其他的智能化应用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈