算法、规则和词表是构建一个系统所需要的三个主要方面。基于此,模型以语境的约束为条件,以理解给定文本或话语中的简单句或短语的语义组块为目标,旨在目标词确定的前提下,通过计算获得该目标词在具体语境中的特定含义,即语境意。具体实例:对含有单字[坏]的一段文本或话语,计算其在句子中的话语意图,以及(主)谓句“他好坏”“你真坏”等具体的话语意图。
该模型利用Java程序语言,初步完成了面向对象的人机交互界面的设计。我们自行建立的知识库主要有以下两个。
(1)目标词知识库的构建。目标词是整个句子语境的激活点,对于话语意义的理解至关重要,我们可以从目标词间的语义关系推断话语单元之间的语义关系。目标词框架中的目标词通常包括名词、动词、形容词。在我们构建模型的过程中,主要处理单字[坏]为例的句子或段落。目标词知识库包括的属性为目标词、义项、义项ID和词性。见5.4.2中的目标词语义词典。
(2)语境知识库的构建。鉴于现阶段语音处理技术还未成熟,我们无法完成对于现场语境语音等语境的相关信息的获取。因此,对于现场语境、上下文语境以及背景语境知识库的构建,我们只关注后两者知识词典的构建。上下文语境词是以目标词为驱动搜索与之语义相关的上下文词语,涵盖名词、动词、形容词等,属性包括目标词ID、语境词、语境词ID和语境词词性。其中目标词ID对应目标词知识库中的义项ID。背景语境知识库,主要利用语义框架进行匹配,按照目标词语义词典中的语义词项归并语义框架。我们从北京大学CCL语料库现代文学作品中,选取带有单字[坏]的前500个句子作为训练语料,并总结出[坏]的语义框架,作为激活背景语境的知识词典。其中包括框架ID,框架,以及目标词ID等属性。框架ID对应目标词ID,同时对应目标词知识库中的义项ID。如图27所示。
图27 目标词语义词典与框架语义词典的对应关系
此外,我们利用中科院计算所开发的应用比较广泛地开放源代码软件——汉语词法分析系统(institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)作为我们分词的系统,其分词的准确率达到97%,未登录词的识别率和召回率在90%以上。汉语词法分析的功能包括分词、词性标注和未登录词识别等。例如:
中国几千年政治家族社会一切方面,都被它支配。倚赖保守退化种种[坏]现象,也常靠它做根据。讲到这个问题,虽极有见识和胆量的人,也不……(www.daowen.com)
【文件名:\\现代\\文学\\俞平伯.TXT 文章标题:我的道德谈 作者:俞平伯】
图28是ICTCLAS词法分析系统的界面:
图28 ICTCLAS主界面
在我们的模型系统中,利用ICTCLAS词法分析功能。首先,输入要解析的目标词和句子,通过分词软件处理后的词性标记代码匹配短语组块规则,从而判断目标词所属的语义框架。其次,通过所属语义框架匹配frame id。经过匹配的frame id对应目标词word id,即语义项。当出现框架歧义时,根据候选语境词的上下文匹配进行框架筛选,从而确定最终框架,以上为判断语境义的全过程。主界面如图29所示。
图29 话语意图理解模型
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。