面向自然语言处理的话语分析的研究对象是静态的话语文本,而非话语交际活动。连贯性属于话语的语义属性,通过分析语言表层证据即话语的形式特征来判断文本块之间的语义关系,即话语的连贯关系。连贯的可计算性取决于计算机对话语连贯关系的识别和处理的结果。话语结构的形式化表示是话语连贯关系识别的必要条件。
话语形式化表示的关键问题是如何判定连贯关系的来源,即话语的表层语言证据。我们可以借助话语的显性标记成分,如话语联系语或关联词语等判定句际间的连贯关系。句际间的连贯关系具体指话语内相邻句子之间的局部连贯关系(local coherence)。从功能的角度讲,话语标记语用来指示句子之间的逻辑语义关系,话语生成者基于怎样的意义使句际间产生关联。(李佐文,2003)显式连贯关系通过显性的标记成分体现,显式连贯包括局部连贯和整体连贯。上文我们已经讨论过局部连贯,整体连贯(global coherence)是从总体的角度分析话语整体与部分之间或者部分与部分之间的关联,同时包括话语内与话语外之间信息的联系。如果从话语结构的角度研究整体连贯,那么包括段落的起始和终结、句群的边界,话语的框架等。(李佐文,2003)
在自然语言处理领域中,对于话语语义关系的处理多是依据有限数量的话语标记语来识别句际之间的语义连贯关系。下面我们要讨论的内容是语义连贯关系的具体判断过程。
话语联系语(discourse connectives)、连接词(conjunctives)等语都可以作为用来提示连贯关系的语言手段。汉语语言学界在复句研究、句群研究中多将这种语言手段称为关联词语。通常情况下,它们与被论及的事物无关且不参与文本命题的表达,但结构上能够标记话语的连贯关系(李佐文,2003)。话语标记语可以作为语言的表层证据揭示话语使用者对话语连贯关系的判断(Knott & Dale,1994:35)。为了行文统一,此类提示连贯关系的词语,我们统称为话语标记语。
话语标记语是话语局部连贯和整体连贯关系的重要标记手段,因此判断话语标记语是计算机连贯关系识别的关键。目前,国内学者已经开始利用话语标记语标注句际间语义关系,从而协助计算机的识别。例如,邹嘉彦(1998)、鲁松,宋柔(2001)、姚双云等(2012)将其应用于自然语言处理领域,利用话语标记语标识语义关系有两个主要原因:其一,话语标记语更易被计算机识别,且标识的语义关系准确,这样可以很大程度上限制了歧义句的产生;其二,鉴于汉语自身的特殊性,其话语标记语的数量相对程度上比较稳定,这样更有利于计算机对其形式化处理。(姚双云,2008:49;姚双云,2012:183)基于以上话语标记语的特点及优势,如果能够对话语的连贯关系进行适当的分类和标记,那么计算机便可通过话语的浅层处理识别部分句际间的语义连贯关系。我们看下面的示例:
[Sending aromas alongside messages in cyberspace is said to be one of the digital trends for 2015,][but smartphone users may disagree.]
(Source:The Guardian,19 December 2014)
此例中,话语标记语but标示了前后两个小句之间的一种局部的对照关系,它出现在第二个小句的开头,标记一个基本话语单位的左边界。对于像这样的语篇,如果我们利用浅层分析技术和关于话语标记语的知识,很有可能顺利地确定语篇内句子之间的连贯关系。但这只是最简单的情况,由于话语联系语的情况比较复杂,使用也比较灵活,仅仅依靠这些标记成分和浅层处理还不足以准确地判定语篇中所有单位之间的关系。又如:
[Gaia is charting the position,movement and changes in brightness of every star in the galaxy,][and is also expected to discover new planets,asteroids and supernovae.]
(Source:BBC-Future,17 December 2014)
上句中and有时连接句内成分,有时连接跨句成分,即标记话语单位之间的语义关系。例句中,第一个and和第三个and连接的都是句内成分,只有第二个and标示的是两个话语单位之间的序列关系。如果要利用话语标记语来确定话语单位间的关系,就需要识别出第二个and前面的界限(标示话语单位之间关系的and前面的界限),而无需涉及连接句内成分的其他两个and。显然,依靠浅层处理的方法尚不能解决这个问题。直接利用话语标记成分来确定连贯关系是不充分的,原因如下。
首先,话语标记语有时连接句内成分,有时连接句际关系,到目前我们还不能确定什么时候它们连接的是句内成分,什么情况下连接的是句际关系,因此尚不能用它们来确定话语单位之间的连贯关系。其次,话语标记语尚不能明晰地标示语段或者话语单元的大小。最后,由于话语标记语所表示的连贯关系大于等于一种,因此二者之间并不是一一映射的关系。
然而,语言学和心理语言学的研究表明,人们利用话语标记语作为相邻话语单位间的连接结(Halliday & Hasan,1976:6),也可以用来表示两个较大话语单位间的语义关系,如在叙述性话语中,so,but和and可以标示话语部分之间的关系。(Kintsch,1977)在自然会话中,so可标记一个主要话语部分的结束,或话轮间的过渡,而and可以标记意义单位和发话者的连续发话。(Schiffrin,1987)
在叙述性话语中,话语标记语可以标记话语成分间的结构关系并且对故事的理解起到非常重要的作用。(Segal & Duchan,1997)在言语交际过程中,发话人和听话人都可以用标记语来标示重要的变更,如标示停顿,话题连续的地方。从已有的研究可以看出,话语标记语很有可能被用来确定话语单位之间的连贯关系。话语标记语通常被用来标示两个话语单位之间的连贯关系,这说明这样的话语成分具有确定语篇语义结构的潜在功能。
假定我们要求计算机利用浅层形式算法(surface-form algorithm)和有关话语标记语的知识来确定下面话语中由though标示的连贯关系。例如:
[In theory,this means online video providers would be able to take advantage of certain protections when negotiating with programmers for the right to broadcast their content.]①[Programmers,meanwhile,could begin charging these distributors money.]②Notably,though,the FCC's rules would only apply to firms that offer“stream[s]of prescheduled video programming.”]③[So services like YouTube and Hulu would not be covered,because they offer playback on demand.]④(www.daowen.com)
(Source:The Washington Post,19 December 2014)
在这段话语中,话语标记语though出现在②和③之间,标示一种让步关系,但是计算机并不知道though维系的到底是哪两个语段,可能是②和③,或者是①②和③,还可能是②和③④,甚至可能是①②和③④。因此只能先找出整个语段中的局部连贯关系,进而确定though维系的是哪两个语段。
Marcu(1997)认为,语段间的连贯关系可以用其中重要单位间的近似关系来解释。如上例中,①②和③④之间的让步关系可以用①和③之间的让步关系来解释。换言之,较小的语义关系可以代替较大的语段解释连贯关系,这一事实说明,整个语篇的语义结构可以采用自下而上(bottom-up)的方法来建构。在例句中,根据though所在的位置,前后句之间的语义关系可能会出现以下几种情况:
A.rel(concession,①,③)
B.rel(concession,②,③)
C.rel(concession,②,④)
D.rel(concession,①,④)
这些假设包括了所有由though标示的可能的连贯关系。①②和③④两个语段间的语义关系可以用①③句之间的简单语义关系来解释,即A.rel(concession,①,③)。现在的问题是:为什么不用C.rel(concession,②,④)等来解释呢?
Harabagiu & Moldovan(1996)的研究表明,衔接关系也可以用来确定较短语段间的连贯关系。例如,一个句子谈论的是水果,与之相邻的另一个句子谈论的是苹果和香蕉,两个句子之间的关系很可能是详述(elaboration),因为苹果、香蕉和水果之间是种属关系。同样,计算机也能假设例句中的①和②之间的关系是附述关系,因为这两个句子都与programmers有关,而且两句之间有标记成分meanwhile来标示;同理,由话语标记语so引导的④句和它前边的句子之间是因果关系。
依据Mann & Thompson(1988)在连贯关系对核心成分(nucleus)和辅围成分(satellite)的区分,他们认为相邻的两个语段,其中一个对于表达发话者的意图更为重要和突出,称为核心成分;与此相对,不太重要的另一个语段称为辅围成分。这样的区分完全是根据话语单位的功能来决定的。发话者在话语建构的过程中,总是有首要的目标和次要的目标,并按照“核心—辅围”这样的关系来组织语篇,这是符合人类认知规律的。
那么从上面的分析可知,②句和④句属于辅围成分(satellites),它们之间的关系不可能决定①②和③④两个语段间的语义关系,决定两个语段之间语义关系的只能是①句和③句,因为它们才处于核心(nucleus)地位。通过这种方法我们可以判断出话语的局部语义关系。
同时,话语的整理连贯关系也可以通过话语标记语进行标示,如果一段话语含有三个语段,由first,second,third等词语标记,这样的三个语段之间很可能是列举(list)或序列关系(sequence),计算机利用这些标记成分就可以得出整体的篇章语义结构,而不用去判定主要成分之间的语义关系。Morris & Hirst(1991)认为,具有衔接特征的语篇和具有层级关系、具有发话意图的语篇之间有相互关系。如一个话语的前三段讲述有关月球的情况,后面两段讲述有关地球的情况,这两部分之间的语义关系很可能是接合(joint)或者是列举(list)。通过这种方法我们可以得到语篇的整体连贯关系。
综上所述,连贯关系是连接语篇内部句际或段落间的桥梁,话语连贯关系的层次性是整个语篇语义结构的体现,而话语标记语是标示连贯关系的形式手段,它既可以标示紧密相邻的话语单位之间的局部连贯关系,又可以标示距离较远的话语部分之间的整体连贯关系。从上文的论述可以发现,构建话语连贯关系集是计算机浅层识别与理解的前提,只有确定了话语的意义结构才能进一步实现自然语言的理解,在本章4.3.3话语连贯关系的识别方法中,我们进一步讨论连贯关系集的构建,这里包含显式和隐式连贯关系,当然目前在该领域仍然有一系列问题有待进一步探索。
然而仅依靠话语标记语识别语篇的连贯关系也有其局限。首先,因为话语联系语有时连接句内成分,有时连接句际关系,到目前我们还不能确定什么时候它们连接的是句内成分,什么时候连接的是句际关系,因此尚不能用它们来确定话语单位之间的连贯关系。其次,话语标记语尚不能明晰地标示语段或者话语单位的大小。最后,一个标记语所表示的连贯关系不止一种,即标记语和连贯关系之间不是一对一的对应关系。这些问题还有待进一步探讨研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。