2.3.3.1 基于语义词典的话语意义研究
基于背景知识的话语意义的计算研究,通常将背景知识等同于语义词典。国内外对于语义词典资源建设已经相对完善。例如,国外研究Word Net是通过词汇语义关系同义关系、反义关系、上下义关系构成的词典。Frame Net是描述语言成分之间的组配关系的语义词典。国内研究如董振东开发的知网(How Net),是一个常识知识库,以概念为研究对象,主要描述概念之间及概念与其自身属性之间的关系。清华大学开发的《现代汉语述语动词机器词典》重点描述语义组合关系。北京大学开发的中文概念词典(Chinese Concept Dictionary,CCD),此词典以Word Net为蓝本。哈尔滨工业大学根据同义词词林(Cilin)开发了同义词词林(扩展板)。台湾中研院通过集成多资源开发了Sinica Bow(the Academia Sinica Bilingual Ontology Word Net)等。
语义词典主要通过词语的上下位、词语之间的路径和词语所在分类中的深度等信息来计算词语之间的相似度和语义关联度。词语语义分析是篇章分析的基础,篇章的语义分析是从小单位到大单位逐渐推进的过程。以语义词典为背景知识的语义理解是话语意义计算的基本途径,现阶段有关篇章语义分析的内容,都关涉到语义词典知识库。
语义词典也有自身的不足,导致仅凭语义词典的表示进行的语义计算存在局限。例如,(1)词语类别受限,相对于实词,语义词典中覆盖的序次较少;(2)粒度小,这是自身词典的组成元素所导致的;(3)对于语义的表示能力受分类体系的制约;(4)上下文信息缺失,在文本中的词匹配到语义词典的过程中,不涉及上下文的信息,映射过程导致话语含义受影响;(5)静态语义知识,语义词典中的词义主要是静态知识,将词义在真实文本中的分布等信息隐藏。
2.3.3.2 基于在线百科的话语意义研究
在Web2.0时代,基于用户产生的内容聚集了大规模互联网信息,如维基百科(Wikipedia),它是利用集体智慧构建的在线百科的范例,通过在线协作式编辑从而形成多语言百科知识库,其中包括跨行业的大规模信息覆盖。Wikipedia以概念为单位对页面进行维护,每个概念都对应全面多维的介绍。概念分类具有开放式特点,它从多角度阐释概念的层次分类。Wikipedia页面中概念的超链接也正是基于其对概念层次分类的多领域、多层次的特点。
Wikipedia所具备的大规模的语义知识为通过词匹配或者检索的文本提供了资源,这些资源映射到维基百科语义网络中对网络知识补充。Wikipedia的局限性在于,大规模的信息为词匹配或检索提供多项选择的同时,也会由于页面中的信息烦冗,从而导致整个页面产生噪音。同时,与英文的Wikipedia完善程度相比,中文的Wikipedia质量还有待提升。
2.3.3.3 基于框架语义的话语意义研究
框架语义学(Frame Semantic)由Fillmore C.J.提出,是以格语法为基础,以词语意义和句法结构意义为核心的语义学理论。框架语义理论主张,人的认知结构以框架的形式呈现,而词汇的语义与认知结构直接相关,相同的词语处于不同框架中表达的语义也会不同。
该理论强调词语意义、概念结构以及情境之间的关系。概念结构是预先存在人的大脑中,词语意义与之相互联系,同时概念结构又与人的所处情境相关,关涉到具体实体属性、社会制度、行为模式等语义框架的约束。鉴于此,背景框架可以凭借个人的经验进行填充,通过框架定义具体的框架元素。(www.daowen.com)
Frame Net V1.5是以真实语料为依据,以框架语义学为理论基础的计算机词典编撰工程,该工程于1997年由美国加州大学伯克利分校开发,到目前为止仍在不断扩充。在现阶段,该系统涵盖了960个语义框架,包括11600个词汇,已经标注的词汇6800个,标注的例句超过150000个,系统仍在扩大完善。
鉴于Frame Net以认知框架为目标,通过词语进行描述,相继出现了以德语、日语、西班牙语等语言的语义框架资源建设。中文语义框架的建设以伯克利Frame Net提供的数据为参照,主要由山西大学的刘开瑛、李茹等构建汉语框架语义知识库(Chinese Frame Net,CFN),其中包括语义知识库内容的编写、辅助软件的开发和应用研究等。(You L,Liu T,Liu K.,2007)汉语框架语义知识库到目前为止对1770个词元(一个义项下的一个词)构建了130个框架,涉及140个形容词词元,1428个动词词元,192个事件名词(有配价的名词)词元,共计标注8200个句子,涉及词语的领域包括:认知领域、科普文章以及法律。(HAO X y,Liu W,Li R,et al.,2007)CFN目前已经用于相关支持的应用。
框架语义适用于话语语义分析,原因主要在于,认知结构以框架抽象为概念,而通过识别文本中不同词汇元素所属的框架,判断框架间的关系即可分析文本块之间的语义关系。由于Frame Net是经过人工编撰的语义信息,就语义信息的精确度而言,明显高于自动捕捉的语义信息。目前Frame Net已应用于篇章关系分析(Li R,Wu J,Wang Z,et al.,2015)和语义角色标注(Palmer A,Sporleder C.,2010)等任务。
2.3.3.4 基于脚本理论的话语意义研究
脚本理论是由Schank和Abelson于1977年提出的,主要强调人脑中的知识结构及其场景式描写。脚本理论是基于Schank在1975年提出的情景依附理论,该理论主要讨论语句中的词汇指向意义。脚本理论强调知识在人脑中的储存方式和人脑对语言的理解模式。
动态记忆模式以脚本理论为基础,以场景为描述对象。如去火车站买票等任务,通过图式化抽象出图式模型即脚本。(Schank R C,Abelson R P.,2013)人们在话语交际过程中,通常将话语内容置于脚本中以辅助交流,如果场景匹配已有脚本,唤起使用者对于相关脚本的信息,则更易于理解各自的意图。
Schank于1991年将理论应用于实际,故事叙述研究的实际应用证明了脚本理论的应用价值,对人脑的思维计算的能力和言语分析能力的解释也印证了脚本理论的分析可行性。
综上所述,基于背景知识的话语意义的研究,首先需要背景知识资源建设,语义分析过程通过背景知识提供的语义信息展开。语义的计算根据背景知识库各自的特点选取分析:语义词典(Dictionary)和在线百科(Online Encyclopedia)知识库对于应用场景没有限制,适用于有大量语义信息需求的文本。框架语义学(Frame Net)通过动词搭建语义框架,语义知识通过抽象的提取作为框架,构建计算机词典,通过词典中的词义关联标示语义关系;脚本理论(Script Theory)主要关注应用场景,以场景间语义内容的不同描述分析文本。脚本理论提供了丰富的信息内容和完整的语义刻画,更便于计算机处理自然语言。
利用背景语义知识计算话语意义的局限性主要在于:首先,对知识资源的质量以及知识资源的覆盖率要求很高;其次,构建过程漫长,难以形成规模,想要穷尽所有现实场景需要大规模建立知识库,因而就实用性来讲,目前还有很多工作要完成;最后,以在线百科为核心的知识资源,爆炸的信息量导致噪音过大且精确度低。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。