理论教育 话语连贯关系的识别方法研究成果

话语连贯关系的识别方法研究成果

时间:2023-10-30 理论教育 版权反馈
【摘要】:话语连贯计算取决于话语的连贯关系的识别,目前,主要通过话语联系语等显示连接词实现对话语连贯关系的识别。,此种研究方法对于有明显话语标记语的句子识别率很高,局限在于对于缺少话语连接词这类话语连贯关系的识别显示无效。下面我们分别讨论显式关系和隐式关系的具体识别方法。

话语连贯关系的识别方法研究成果

连贯性(coherence)作为自然话语的核心特征,用来检验话语交际性和合法性的标准。话语不是简单的句子罗列,而是交际者用来表达思想或传递信息的一个统一的整体(a unified whole)。构成话语的句子形式上前后连贯,语义上互相关联,意在实现话语生成者的交际意图。话语中各个句子或语段之间的语义关系是话语连贯性的主要体现,这些语义关系又称为话语的连贯关系(coherence relations),不同层次的连贯关系可以体现话语的语义结构,从而作为有效的言语交际单位。

话语连贯计算取决于话语的连贯关系的识别,目前,主要通过话语联系语等显示连接词实现对话语连贯关系的识别。(Knott& Dale,1994;邹嘉彦等,1998;姚双云等,2012),此种研究方法对于有明显话语标记语的句子识别率很高,局限在于对于缺少话语连接词这类话语连贯关系的识别显示无效。

对于话语连贯关系的识别,可根据话语中是否含有关联标记将话语连贯关系分成两类:当语篇中含有标示句际关系的关联词时,称之为显式连贯关系(Explicit Coherence Relations),对于缺少关联词作为句际语义标注时,称之为隐式连贯关系(Implicit Coherence Relations)。下面我们分别讨论显式关系和隐式关系的具体识别方法。

4.3.3.1 话语显式关系的识别

显式连贯关系,是指用语言手段标示出来的连贯关系,连贯性可凭语言(词汇)层面的信息进行解释。由于是在语言表层的体现,因此易于连贯关系的自动识别机制的建立,同时也为计算机自动处理话语连贯关系提供了语言学的知识和资源。

由于连贯关系的研究方法不尽相同,国内外学者对于其分类尚未达成统一的标准,Hovy & Maier(1992)提出一种话语关系层级体系,将其他30名研究人员已指出的400多种语义关系进行归并整理,最后总结出70余种连贯关系,我们参考了Halliday和Hasan(1976),廖秋忠(1986),Hyland(2008),胡壮麟(1994),Hoey(2005)等人对衔接与连贯、篇章连接成分、元话语、词汇搭配等方面的研究成果,做出以下分类。下表我们将显式连贯关系分为词汇关系和逻辑关系两大类:

表2 显式关系分类

续表2

续表2

续表2

续表2

如下我们采用上面的分类,对下面一篇语料的显式连贯关系进行标注:

(1)男人不是女人,(2)女人不是男人,(3)这是个非常简单基本却有时非常重要的道理。(4)而且没有人会承认说自己不懂这个道理。(5)但事实上,许多的人的确是不懂这个道理的。

(6)男人属阳,(7)女人属阴,(8)这恐怕是众所周知的一个普遍真理。(9)因此,女人一般是不能干男人所干的某些事情的。(10)如果硬是要干,(11)当然也未尝不可,(12)然而绝对不美。(13)比如搞哲学、说相声、摔跤、当官,等等。

(14)搞哲学,很高尚,(15)女人能做哲学家自然十分了不起。(16)可是,一般说来女人长于形象思维而弱于逻辑思维,(17)若是费老大的劲与自己天生的弱点斗争,躲进书楼成一统,日读书夜读书,一读十几年几十年,戴副越来越深度的近视眼镜,不苟言笑,皱纹深刻。(18)对于女人来说,这是不是忒滑稽了一点?

…………

(19)当然,男人绝对不能干的事也不少,(20)并且常被男人们自己忽略。(21)比如说男人不能养指甲,(22)即便是为了掏耳屎养小指甲也难看。(23)堂堂大男人却十指尖尖,成何体统?

…………

(24)男人千万别织毛衣;(25)千万别男扮女装,(26)擦胭脂抹口红,(27)捏着嗓子唱歌;(28)男人还忌讳有鲜润红亮的唇,(29)鲜润红亮在一圈黑胡楂子中同样令人惨不忍睹。(30)不过话又说回来,人家若天生一副红唇怎么办?(30)有一个办法便是抽烟,(31)一抽颜色就能沉着起来。(32)当然,这是一句玩笑话了。

(节选自池莉《男女有别》)

首先,我们就词汇层面分析一下这段语料。从篇章整体角度来看,下划线标记的“男人”和“女人”这两个表达式贯穿全文,而且前面两段交替出现,而后面的段落则是分而述之。由此,我们从“男人”“女人”的词汇照应可以知道,这篇语料主要是讨论男女各自特点的。另外,“女人”这个形象经常能让我们联想到的,如句(21)的养指甲、句(24)至句(28)的织毛衣、擦胭脂抹口红、捏着嗓子唱歌、鲜润红亮的唇等语义词汇搭配,却出现在以“男人”为中心的语段里。由此,可以看出作者的意图是假设男人扮女人会有多么不适当。词汇层面还有其他一些更具体的照应词,比如句(3)的“这”与句(4)(5)句“这个道理”,皆是对句(1)(2)命题的指代异形表达。同样的还有句(18)“这”,指代上文(17)的内容;以及句(32)“这”,指代(30)(31)的内容。

如下我们从逻辑关系层面进行分析:

(1)男人不是女人,(2)女人不是男人,(3)这是个非常简单基本却有时非常重要的道理。(4)(顺接-递进)而且没有人会承认说自己不懂这个道理。(5)(逆接-转折)但事实上,许多的人的确是不懂这个道理的。

(6)男人属阳,(7)女人属阴,(8)这恐怕是众所周知的一个普遍真理。(9)(顺接-因果)因此,女人一般是不能干男人所干的某些事情的。(10)如果硬是要干,(11)(逆接-让步)当然也未尝不可,(12)(逆接-转折)然而绝对不美。(13)(顺接-举例)比如搞哲学、说相声、摔跤、当官,等等。

(14)搞哲学,很高尚,(15)女人能做哲学家自然十分了不起。(16)(逆接-转折)可是,一般说来女人长于形象思维而弱于逻辑思维,(17)若是费老大的劲与自己天生的弱点斗争,躲进书楼成一统,日读书夜读书,一读十几年几十年,戴副越来越深度的近视眼镜,不苟言笑,皱纹深刻。(18)对于女人来说,这是不是忒滑稽了一点?

…………

(19)(逆接-让步)当然,男人绝对不能干的事也不少,(20)(顺接-递进)并且常被男人们自己忽略。(21)(顺接-举例)比如说男人不能养指甲,(22)即便是为了掏耳屎养小指甲也难看。(23)堂堂大男人却十指尖尖,成何体统?

…………

(24)男人千万别织毛衣;(25)千万别男扮女装,(26)擦胭脂抹口红,(27)捏着嗓子唱歌;(28)男人(顺接-并列)还忌讳有鲜润红亮的唇,(29)鲜润红亮在一圈黑胡楂子中同样令人惨不忍睹。(30)(逆接-转折)不过话又说回来,人家若天生一副红唇怎么办?(30)有一个办法便是抽烟,(31)一抽颜色就能沉着起来。(32)(逆接-让步)当然,这是一句玩笑话了。

(节选自池莉《男女有别》)

以上标记的逻辑词能标示出语篇的连贯关系,当然语篇中还蕴含着隐式的、没有逻辑关系词的连贯关系,此节中我们不予以讨论。

显式连贯关系主要通过语法性词汇进行识别,Halliday &Hason所说的连词、连接副词和部分介词词组等连接成分属于语法性词汇的识别,由于这种识别通常是规定性的,因此对于计算机的自动识别准确率较高。在识别过程中,语法性词汇要优先进行识别。

4.3.3.2 话语隐式关系的识别

话语隐式关系指缺少连接话语单元间的显示连接词,其关系是通过逻辑语义上的语义关系将话语单元连接在一起。因此相比于显示关系的识别,隐式关系的识别难度加大。

以话语标记语为驱动用来判断话语的连贯关系有其局限性,因为并非所有的句间关系都有关联标记作为提示,这样的情况下,将会影响计算机的自动识别。通常情况下,紧密相邻的句子之间也含有互相关联的语义关系,被称为意合(parataxis)(李佐文,2003)。相比于显示连贯关系的识别,现阶段判定隐式连贯关系是面向计算的话语语义关系分析的难点,其识别率只有40%左右,而显式连贯关系的识别准确率目前可达到90%以上。(宗成庆,2013:292)

目前,汉语语言学界对于连贯关系的自动标注主要通过复句的连接成分进行识别(如姚双云等,2012),显然这样的识别结果只适合于显式连贯关系,如果句中缺少连接成分,那么此方法则不再适用。廖秋忠(1992:85-88)提出,由于连接成分在话语中和在句子中的相比也有其自身的一些特点,所以此方法有其局限性,并不能直接套用去判断话语连贯关系。

我们不以提出或穷尽汉语的连贯关系为目标,只是通过构建以自然语言处理为导向的话语意义计算的框架,涵盖并讨论连贯关系的问题。如上节显式连贯关系存在分类问题,同样存在于隐式连贯关系中。本书参照廖秋忠(1986),对汉语连接成分的分类,Mann and Thompson(1988)修辞结构理论,Hyland(2008)对元话语的分类,和邢福义(2001)对汉语关联词的分类标准,试提出以下不完全的分类:

表3 隐式关系分类

续表3

下面我们尝试对一篇语料的逻辑语义连贯关系进行标识(EC:显式连贯,IC:隐式连贯),语篇中用括号“()”作为切分两个相邻话语单元之间的标记,其中左括号“(”和右括号“)”分别标示上一话语单元的结束和下一话语单元的开始,“()”中的内容为两相邻话语单元间的语义连贯关系。例如:

(IC总结●●→★)(1)所谓小传只给了我们这五条材料,(IC详述★←●●)[(EC转折●→●)(2)虽简略,(EC转折●→●)(3)却具权威性。](EC条件)(4)如果感到歉然,(●→●EC结果)(5)我们可以到《庄子》书中去搜索材料。(IC详述★←●●)(6)其间故事不少,(EC递进●→●)(7)而且生动有趣,(IC评估●←●)(8)可补小传不足。(IC转题★→★)(9)今将搜索所得综述之。

(★←●●IC详述)(10)庄先生在家乡做个管理国有漆树园林的吏员,(★←●IC详述)(11)收入微薄,(IC详述)(12)仅足糊口。(IC背景)(13)公务闲暇,(●→●IC主体)(14)著述自娱,(●←●IC评估)(15)亦颇快乐。(IC原因)(16)某年春荒,(●→●IC结果/问题)(17)无粮下锅,(●→●IC解答)(18)不得不去找监河侯借粟米。(IC详述★←●●)(19)监河侯是宋国黄河水利官员(IC详述)20)庄周的旧友,(IC详述)(21)为人极悭吝。(IC顺序●→●)(22)他说:“好吧。(IC条件)(23)到了年底,领地百姓给我交纳赋税来,(●→●IC结果)(24)我一定借给你三百金。”(IC顺序/原因/问题●→★)(25)庄先生被戏弄,(IC结果)(26)气得眼鼓鼓的,(●→●IC解答)(27)不好发怒叫骂,(EC选择●→★)(28)只能讲个笑话揶揄自己,(IC详述●←●)(29)讽刺对方。(IC详述●←●)(30)笑话大意是说:“我是一条鲫鱼,(IC详述●←●)(31)躺在路边车轮碾的槽内,(详述[(IC条件)(32)求你给一升水,(●→●IC结果)(33)便可活命。])(EC转折●→●)(34)你却绕开我,(IC因果●←●)(35)说你要求游江南。(IC顺序●→●)(36)江南游了,(EC顺序●→●)(37)再去蜀国放大水入长江,(IC顺序●→●)(38)引长江灌黄河,(IC目的●→●)(39)让黄河泛滥,(IC详述●←●)(40)洪波滚滚来迎我。(IC解释●←●)(41)你开了骗人的空头支票,(EC选择●/●)(42)还不如早些到干鱼店去找我。”(EC顺序●→★)(43)后来这个笑话写入《庄子杂篇外物》,(IC评估●←●)(44)至今令人莞尔。

以上的隐式连贯关系的判定是通过人工完成的,对于计算机自动识别语义关系而言,相比可由语法性词汇识别的显式连贯关系,隐式连贯关系的判断主要依据语义性词汇识别。语法性词汇由具有语法意义的连词、连接副词等成分承担,属于连接性词汇的识别;而对于识别隐性连贯关系的语义性词汇,由有词汇意义的实义词或实义短语来进行识别,属于非连接性词汇的识别,但是其自身并无连接作用,不具备连接功能,却能提示某种连贯关系,如以下词汇在句中单独出现或者配对出现时能够揭示话语的语义关系:“看上去”表示评估关系(Evaluation),“居然”表示转折关系(Adversative),“直到”表示结果关系(Result)。(梁国杰,2015)

对于计算机自动识别而言,由于语法性词汇属于相对封闭的集合,识别起来比较容易,然而,语义性词汇需要基于真实语料挖掘句子间的隐式连贯关系集,而且集合的元素相对开放,由于其数量不受限,这将对计算机的自动识别造成困扰。我们可以通过领域作为分类标准,先对专门领域的语义性词汇进行归纳总结,以此提高计算机自动识别的准确率。有鉴于此,我们根据计算机识别的难易程度,判定语义关系的识别顺序为语法性词汇的识别要优先于语义性词汇的识别。

另外,针对隐式连贯关系的识别,当文本中没有没有明显的语义性词汇用于识别时,这时需要利用语义框架进行判断。具体方法见4.3.3.2.2。

4.3.3.2.1 框架的认知功能与心理理据

作为一个认知概念,框架(frame)具有边界的符号功能,可以利用框架划定有标记空间和无标记空间,对象和过程都可以作为框架内的事物。

美国学者M.Minsky(B.Nebel,1999:324-325)最先将框架概念引入计算心理学。框架是有组织的知识束,也是用来表征领域知识的一种心理手段。首先,框架是一种经验组织,它以主题或者序列的方式储存在大脑中。其次,框架具有心理预设功能,由于它可以高度地抽象出概念和情景,使得框架可以对新的事物做出预判。

在Minsky之后,R.Fikes和T.Kehler将框架理论做了进一步的完善。(B.Nebel,1999)他们认为,首先,框架的组织是分等级的。例如,在“卧室”框架下有“家具和布局”的框架,在其上又有“房子”的框架。其次,信息槽(slot)决定了框架的属性,信息槽又由填料(fillers)构成。从框架到槽再到填料即知识的处理过程,填料的解释和计算就是知识的理解过程。最后,他们强调了框架的继承性。由于框架按照等级进行组织,继承性使等级之间具有包含关系。例如,在“宇宙-银河系-太阳系-地球”这个框架系统中,每个上位的等级框架都包含下位的等级。虽然,Minsky框架概念的提出主要用于AI领域解决机器人的视觉和视记忆问题,但是,由于框架的预期驱动性质,使得它在识别和理解问题中都得到了广泛的应用。

4.3.3.2.2 基于框架语义的隐式连贯关系的推理

对于框架语义的隐式连贯关系的推理研究,我们借用宾州篇章树库(Penn Discourse Treebank,PDTB)中的相关概念和分类进行本节的探讨。PDTB是一种论元关系语料库,其中统一将具有独立语义的句子或子句称为论元。谓词为连接词,连接词用来连接论元对。连接词前面的论元称为前置论元(Arg1),其后的论元称为后置论元(Arg2)。分析连接词所连接的前后论元之间的关系成为篇章分析的首要任务。

PDTB中篇章的语义关系分为三个层次:第一层包括扩展关系(Expansion)、偶然关系(Contingency)、对比关系(Comparison)和时序关系(Temporal)四大类;而四类关系中的每一类依据语义又可划分为多层子关系,这里暂不赘述。

例如,偶然关系又继续划分为因果(Cause)和条件(Condition)等第二层关系,第二层关系还可以再进一步分为多个子关系。基于此,PDTB中的篇章语义关系,依据论元对(表示为“Arg1-Arg2”)之间是否存在谓词可以划分为显式关系和隐式关系两类,这和我们之前探讨的显式语义关系的识别划分依据相一致。我们看下面的例子:

1)Arg1:I tried two shirts.我试穿了两件衬衫。

Arg2:but neither fits me.但没一件合适的。

Relation:comparison.Contrast篇章关系:比较-对比

2)Arg1:Boston Celtics is beat by Detroit Pistons.

波士顿凯尔特人队被底特律活塞队打败。(www.daowen.com)

Arg2:[Implicit=So]Detroit Pistons win the game

[所以]活塞赢得比赛

Relation:Contingency.Cause篇章关系:偶然-因果

以上给出的示例中,例1)中的两个论元间是显式关系,通过显式连接词“but”相连,即为显式论元关系(Explicit Discourse Relation)的论元对,通过连接词可以直接反映或指定论元之间语义关联的类别,篇章关系为比较-对比。例2)中缺失显式连接词,通过推理前后论元间的语义关系可知论元对间属于因果关系,前后论元称为具有隐式关系(Implicit Discourse Relation)的论元对。以上可知,判断连接词或者篇章关系,主要是以前后论元之间的语义信息和事物间的本源逻辑为推理的依据。

鉴于显式连贯关系可依据连接词直接判断,计算机对于显式连贯关系的识别率已经接近93.09%。相对而言,隐式篇章关系中缺少连接词的提示,计算机判断连贯关系仅能通过上下文、语义、逻辑结构等信息进行推理。而上下文的模糊性、语义关系的歧义性等都将导致隐式篇章关系检测的性能下降。所以计算机对隐式篇章关系检测的正确率仅约为40%。

对于缺少连接词的论元之间的语义关系如何识别?基于框架语义的隐式篇章关系的推理为这一问题提供了解决的思路。我们可以将论元整体的语义表述通过框架语义进行抽象,依据框架语义关联信息在大规模文本数据中的分布概率来计算语义层面上论元间的关系属性。我们试分析如下示例:

He was shot by a terrorist.He unfortunately passed away.

Arg1:He wasshot by a terrorist.他被恐怖分子射中。

Frame 1:Attack(框架1:袭击)

Arg2:He unfortunately passed away.他不幸逝世。

Frame 2:Death(框架2:死亡)

通过Frame 1和Frame 2之间的关系来判断篇章的语义关系,两个论元间属于偶然-因果关系(Contingency、Cause)。以上示例中,Arg1的框架类别为Frame 1:Attack,Arg2的框架类别为Frame 2:Death,通过Frame 1和Frame 2二者的“偶然-因果”关系即可替换推断Arg1和Arg2之间的语义关系,以上推理的过程就是隐式连贯关系的计算过程。简言之,隐式连贯关系可以通过推断论元抽象化后概念间的语义关系来判断。

鉴于此,论元的框架语义识别标准是判断隐式关系的关键,可通过基于框架语义知识库中的框架(Frame)作为论元核心目标词(Target)抽象的结果。具体而言,上述示例中框架“Attack”和框架“Death”分别对应论元中的核心目标词“shot”和“passed away”。

利用框架语义辅助篇章关系识别的具体操作为:首先,通过概念间抽象的关系属性反映论元间的语义关系;其次,鉴于语义的衔接关系可以通过框架语义间表现出来,而论元的核心框架是论元整体的语义抽象的结果,具有强概括性。因此,我们可以通过框架语义之间的关系从宏观的角度推理隐式关系中论元之间的语义关系。

4.3.3.2.3 利用词汇语义关系判定隐式连贯关系

除了上文中利用框架判断隐式关系的方法外,利用词汇之间的语义关系也可以判断话语的隐式连贯关系。对于隐式关系的识别本质上是分类问题,即推理两个话语单元或者论元之间逻辑语义关系的类别。我们可以通过有指导的方法来抽取训练语料的特征,进而训练隐式关系间的识别模型。特征的抽取可以按照如下三个层面进行。

(1)通过词汇之间的情感极性判断隐式关系,情感极性信息能够反映话语单元间的关系类型,例如:

山村的孩子生活[贫困],孩子们却感觉生活得很[幸福]。

上例中,[贫困]在情感极性信息中属于贬义,而[幸福]在情感极性信息中属于褒义。通过观察,二者极性信息呈反向。因此,我们可以推断出两个话语单元间为转折的语义关系。此方法采用了词汇的极性特征,可利用的资源如大连理工大学的情感分析词典,通过分析词典中话语单元的词汇情感极性特征,进而获得话语单元的情感极性特征结果。

(2)通过词汇的关键词特征判断隐式关系,即上文中我们讨论过的语义性词汇标记,例如:

几年没摸过球拍的他,[居然]还可以打得这么好。

例句中的[居然]表示转折关系,因为从功能的角度讲,后续内容是对前述内容的逆转,在关联词词典中没有出现[居然],但可以在同义词词林中找到,它和表示转折的一类连词位于同一类别,如但是/但、可是、然而、只不过、只有、却、想不到、居然、唯独。我们可以通过同义词词林中的类别信息挖掘关联词词典中未覆盖到的指示词信息。

(3)基于核心动词判断隐式关系,通常句子之间的语义关系可以通过句中的谓词进行推理。例如:

李大娘上周下雪的时候[滑倒]了,[住院]一周了才能下床。

上例中[滑倒]和[住院]之间提示了一种因果关系。因为[滑倒],所以导致[住院],两个动词表明了两个话语单元间的搭配特性,通过动词之间的语义关系有助于识别话语单元间隐式的语义关系。

4.3.3.3 话语连贯关系识别流程

基于上文对显式和隐式关系的论述,对于连贯关系的识别我们可以形成这样的逻辑思路:语法性词汇标记优先于语义性词汇标记进行匹配,匹配成功则为显式连贯关系,并输出具体连贯关系类别。当文本中对语法性词汇标记没有匹配项时,便转向隐式连贯关系的判定,语义性词汇标记又优先于目标词对于框架的匹配,如果能够匹配语义性词汇标记集,则输出具体连贯关系。若匹配失败,则走向下一阶段,通过目标词激活框架知识库来匹配语义框架集,如果成功匹配,则输出框架之间的关系,从而判断连贯关系。识别过程的逻辑思路具体表述如下:

Insert texts

Is there a grammatical lexical marker?Refer to Grammatical Lexical Markers list

If yes then

Match with the set of coherent relation,

If complete,then

Out put{coherent relation}

If failed,then

Texts collected for manual review

If no then

Is there a semantic lexical marker?Refer to Semantic lexical Markers list

Match with the set of coherent relation,

If complete,then

Out put{coherent relation}

If failed,then

Texts collected for manual review.

If no then

Review the texts

Is there a target word?Refer to Frame Knowledge Base,

If yes then

Match with the set of Semantic Frame,

If complete matching then

Out put the{Frame Relation}

Out put{coherent relation}

If failed matching then

Texts collected for manual review.

If no then

Texts collected for manual review.

下图中缩写的含义分别为:grammatical lexical marker=GLM;semantic lexical Marker=SLM;target word=TW;frame knowledge base=FKB;coherent relation set=CRS;semantic frame set=SFS;coherent relation=CR;frame relation=FR.

我们将显式连贯关系和隐式连贯关系识别的程序流程整合后表示为图11所示的流程。

图11 显/隐式关系识别流程图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈