基于上节有关词汇链和事件链介绍,在其构建过程中难免会遇到名词或者代词的指称问题,这些名词和代词的指称通过人工判断很简单,但是对计算机处理自然语言来说,如果出现指称错误,就会导致词汇链和事件链中有关事件的误判,从而篇章的连贯性也会受到影响。所以如何判断指称所指是目前自然语言处理的难题。
目前,机器学习方法是同指消解的主要方法,具体操作步骤为通过特征组合来标识指称语,从而判断指称语间的关系。可以按分类问题判断是否同指。同时也可通过计算排序关系,判断指称语,同指关系则为排序最后的指称语。另外可将全部指称语通过聚类分成不同的子集,那么隶属于相同子集的指称语的关系则为同指。
同指消解问题可谓是现阶段人工智能中的棘手问题,对于信息抽取的准确性起着至关重要的作用。人称代词和名词短语的消解是同指消解主要针对的问题。对于同指消解,国际著名评测ACE(Automatic Content Extraction,自动内容抽取)做了如下定义:共指消解的过程即篇章中的指称语映射在真实世界中所指向实体(Entity)的过程。实体通常指代词和名词,名词又分为普通名词和专有名词,语言学上对于实体的划分更加详细,如缩略语、同位语、零形指代等。
从广义的角度讲,指代消解和同指消解可以归并为同一问题,即如何从篇章的回指计算先行语的过程。我们从以下三个层面,即句法结构、篇章结构以及背景知识为指代消解问题提供可行性的方法。
Hobbs(1979)提出的“Hobbs算法”是以句法结构为核心的关于代词消解的算法,通过句法分析树来进行有关搜索。具体而言,分成两类算法:一类是朴素Hobbs算法,只基于句法知识计算;另一类是尚处于理论模型阶段的算法,包括句法和语义知识。目前多数基于Hobbs算法的研究者所使用的语料来自英文,很少涉及汉语。在研究指代消解的过程中,研究者也对这种算法做了逐步改进,利用性和数的信息约束指代关系,得到了很好的结果。(宋洋,2015)(www.daowen.com)
Grosz等人提出的中心理论(Center Theory),是以语篇结构为核心的解决指代消解问题的理论方法,中心理论可用来判断篇章的局部连贯,主要用来判断篇章结构中的焦点转移以及话语一致性等问题。该理论以跟踪句子中实体焦点转变为目标,而有关代词消解问题的目标也是通过焦点实体来判断代词的具体指代。有鉴于此,中心理论为指代消解问题提供了可行性的理论指导。虽然目前众多研究者已经对中心理论的算法不断进行完善,然而基于规则的算法还是有其自身的局限性,即随着规则算法的发展程度、规则的数量不断扩充的同时,制定规则本身也异常冗杂,此时规则算法已经饱和,严重影响了指代消解的准确率。(王厚峰,2015)
背景语境知识的同指消解问题的解决方案通过不断更新数学模型和特征库而不断优化其计算结果。如果要通过背景知识判断所指,必须转向深层语法分析和语义分析。首先要建立理论模型,此类方法势必会提高共指消解系统的性能。背景知识的添加是自然语言的深层处理,这种方法可以提升机器理解自然语言的准确度。例如,“苹果和iPhone X”,二者之间如果没有背景信息,完全没有关联。现阶段可以通过如下方法获取背景语义知识,首先,可以通过类似wikipedia,How Net,WordNet等知识库获取;其次,自建知识库,通过大数据中挖掘的共指消解的模板,然后不断扩展出新的模板;最后,通过向特征向量中添加一些实体语义相似度特征,利用维基百科匹配知识计算其相似度。
综上所述,有关共指消解的解决途径中也存在强不适定问题(strongly ill-posed problem),处理强不适定问题的方法需要加入适当的约束条件(constraint conditions),目的是缩小问题的求解范围,使之变成适定问题(well-posed problem)进而得到部分解决。针对背景知识指代消解需要的约束条件,如知识、经验等,而对于二元分类等问题,就需要不断扩大特征条件进行约束。(冯志伟,2010:39-40)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。