2.3.2.1 基于修辞结构的话语意义研究
以修辞结构为核心话语意义的计算,目标是识别文本块之间的语义关系,如因果关系,转折关系等,因此也称为修辞关系的识别。根据切分文本的方式划分,可将研究方法分为两类:一类将文本分割为彼此不相交的语义单元,通过分析文本切割后各个部分之间的语义关系和结构组成为核心。如修辞结构理论(Rhetorical Structure Theory)和篇章图树库(Discourse Graph Bank);另一类无须对文本预先切分处理,而是通过识别话语关系和元素的位置,进而再识别话语的语义关系类型。如宾州篇章树库理论(Penn Discourse Tree Bank)。下面我们分别介绍三种理论具体切分文本的方法。
修辞结构理论(Rhetorical Structure Theory,RST)最先由Mann和Thompson(1988)提出,其后,Marcu(1997)在其博士论文中分析了RST理论,然后基于此理论研究了自然语言文本的算法,对RST理论进行了更加深入的研究。一方面,通过RST理论识别提示语(Cue Phrase,简称CP),并将语言证据分散开,以形成若干的子句;另一方面,通过建立修辞结构树形成有结构的文本。RST理论通过分析文本结构,判定文本单元之间的语义关系,层层构建整个段落乃至整个语篇,使之成为一棵有结构的RST树。RST理论的主要观点可概括为以下三个方面:第一,话语由文本单元构成,各文本单元具有不同的功能;第二,基本话语单元(Elementary Discourse Unit,简称EDU)为话语切分的最小语义单元,基本话语单元和基本话语单元之间可组成较大单元,直至生成最终的RST树;第三,文本单元之间通过修辞关系进行标示,表明其间的连贯关系。(王伟,1994)
RST中的关系类型是一个开放集,可以随着新关系类型的出现逐渐添加。然而对于大多数话语来讲,都是由少量的基本关系集组成。修辞结构理论体系对常用关系集进行了界定,表1列出了RST的常用连贯关系。修辞结构理论的连贯关系集的开放性,决定了其集合的灵活性和多样性。研究者可依据研究对象的特性对关系集中关系的数量和类别添加或删减,以适合研究需要。
表 1RST中常见的修辞关系类型Rhetoric relations in RST
RST通过自底向上建立的树图使修辞关系结构更加清晰地予以描述,目标文本通过自底向上逐层的分析,直到不能再分,进而得到篇章修辞结构树,如图3所示。(Mann W C,Thompson S A.,1988)
首先文本需要以文本单元的形式进行切分,然后确定是否有跨段及文本单元相互之间的关系,其后除去非良的结构树,最终对已切分好的树进行消歧,并解释和分析可能存在的多种结果。
图3 RST分析结果:篇章修辞结构树示意图
An example of rhetorical tree(Mann W C,Thompson S A.,1988)
虽然目前修辞结构理论应用于汉语的研究已经很多,但仍处于起步阶段,在现实中并没有深入的开发应用。该理论在汉语中的应用存在局限,想要利用RST对汉语篇章进行分析有些问题尚待解决。俞士汶(2003:71)认为这些问题包括以下几个方面:首先是关系类型的数量问题,针对汉语需要准备多少种关系类型。其次是对于语言片段关系的判断问题,怎样通过语言片段所具有的形式特征来判断其间的关系。最后语篇基本单元的切分以及识别问题,即语篇基本单元应该以多大的语言单位切分合适,切分后要通过怎样的形式特征准确识别出它们。以上问题有待在进一步的具体实践中逐步解决。
篇章图树库(Discourse Graph Bank)由Wolf和Gibson于2005年提出,他们认为用图而非RST中的修辞结构树表示篇章更为适合。在之后的文章中,他们建设了由135篇文档构成的篇章树库资源,并对篇章的表示方法,树结构和图结构进行了详细的讨论和区分。他们认为以图标的方式表示文本结构,优点是可以使文章的不同内容表现形式更加自由,进而使信息的获取更加丰富。图4和图5中解释了两种理论各自的特点,Discourse Graph Bank和RST Discourse Tree Bank都对两例给予标注。(Wolf and Gibson,2005)。
图4 篇章图树库(Discourse Graph Bank)
The annotation example of discourse graph bank(Wolf and Gibson,2005)
图5 修辞结构理论标注实例
The annotation example of RST(Wolf and Gibson,2005)(www.daowen.com)
我们挑选出上图中对于相同文本两种标注结果的示例。对比后发现,篇章树库描述的文本关系互相之间可以重叠或者交叉,用图状表示更侧重于关系的丰富性。相对于修辞结构树,主要突出文本关系的可操作性和一致性,其严格的层次化表示,使得计算机对文本的处理相对容易。通过观察,就表现能力而言,篇章树库的直观性要好于修辞结构树。但篇章树库也有其局限性,正如Marcu(1997)所提出的结构的自由和丰富自然会导致歧义的产生,如何在标注中保持统一标准,是下一步有待解决的问题。
宾州篇章树库理论(Penn Discourse Treebank,PDTB)是宾州大学的研究人员采用的通过以词汇为核心对文本关系进行分析的研究方法。(Webber,B.L.,Joshi A.K.,2003)具体操作方法如下:首先,选取篇章关联词,从语义的角度判断相邻文本单元之间的逻辑语义关系,如递进关系,条件关系等;其次,构建篇章关系树库(Prasad R,Dinesh N,Lee A,et al.2008),进而使句间的分析结果逐步扩展成为整个语篇的语义信息。
PDTB的提出为篇章语义分析提供了解决途径,它促进了自然语言的处理应用,包括文本连贯性评价(Feng V W,Lin Z,Hirst G.,2014)、倾向性分析(Somasundaran S,Wiebe J,Ruppenhofer J.,2008)、自动文摘、自动问答(Girju R.,2003),文本质量评价(Pitler E,Nenkova A.,2008)等。
PDTB标注体系强调连接词在话语修辞关系中的作用,连接词作为话语单元间的标识,将话语单元间的关系分成两类:一类是有关联词的显式篇章句间关系(Explicit Discourse Relation);另一类是无关联词的隐式篇章句间关系(Implicit Discourse Relation)。隐式关系在无关联词协助判断情况下,给推测语义关系类型加大了难度,识别率很低。
由于关联词对篇章句间关系的提示,使得判断句间关系相对容易。Pitler et al.统计关联词的识别特征,通过无指导方法判断显式篇章句间关系的类型,成效很好,以此验证通过关联词来识别显式关系的可行性。(Pitler E,Raghupathy M,Mehta H,et al.,2008)与此同时,Piter et al.利用有指导模型方法实现显式关系的识别,通过与关联词相关的标准句法特征提升显式关系的识别性能。(Pitler E,Louis A,Nenkova A.,2009)
隐式话语句间关系由于缺少关联词语的提示加大了识别难度。相对于显式关系的识别,隐式话语句间关系只能通过分析词汇之外的信息进行识别,如事件关系特征(Chiarcos C.,2012)、实体特征(Louis A,Joshi A,Prasad R,et al.,2010),以及句法限制(Lin Z,Kan M Y,Ng H T.,2009)等。到目前为止,如上研究对于隐式关系的识别效果并不理想,关键原因在于缺少关联词提示的情况下,想要识别语义关系类型,需要大规模的背景知识资源建设。(Lin Z,Kan M Y,Ng H T.,2009)
2.3.2.2 基于话题结构的话语意义研究
主题模型理论(Topic Model)主要基于词袋(bag of words)模型,研究中不考虑语法和词汇顺序,将整篇文档视为词汇集合,分析方法为计算文字或文档和主题之间的概率关系。例如,概率隐含语义分析(Probability Latent Semantic Analysis,PLSA),隐含语义分析(Latent Semantic Analysis,LSA)等。
2.3.2.3 基于功能结构的话语意义研究
基于功能结构的话语意义的分析,切分依据文本中各部分的结构功能。例如,议论文章通常包括如下部分“定点——确立中心”“辐射——文章分论点”“添加——举例引用”“完善——提炼文章首尾”。因为结构功能不具有普适性,体裁的差异也会导致文章结构功能随之改变,所以,基于结构功能的研究多数以应用为主,通过应用场景确认进而有目的性地识别篇章的结构。
Cohan和Goharian(2015)将文章分析体裁定位在科技文研究,他们通过对篇章每一部分功能结构的分析,探寻自动摘要语句生成的证据——科技文献间的引用方式。研究表明,语句间的连接方式是通过篇章的功能结构实现的,因此,他们以文章的功能结构作为自动摘要生成的切入点,举例说明:(1)介绍问题;(2)模型假设;(3)方法、实验、发现、结果、影响。
基于结构功能进行语义分析的应用还有自动生成作文和评分的相关讨论。Song et al.以篇章中的“Cohesion”信息作为切入点,识别作文中的篇章元素、“主旨大意”和“支撑观点”等类似的功能单位。(Song W,FuR,LiuL,et al.,2015)在具体应用的过程中,可以根据研究者的需求,对结构功能的提取元素进行调整。除上述分析内容外,我们还可以定义论点、论据、论证方法,等等。
综上所述,基于话语结构的话语意义的计算研究,主要分两步展开:首先,需要将文本的整体语义内容进行切分,通过文本块之间的语义关系形成修辞结构;其次,将这些修辞结构对应相应的语义关系类型,如递进关系、条件关系等。如果从结构上观察文本块之间的结构形,那么修辞结构理论(RST)呈现树形结构。宾州树库理论(PDTB)和篇章图理论(Discourse Graph Bank)主要由线性结构组成,不排斥交叉和语义关系的跨越。相对于基于词汇的语义关系的识别,以结构为核心的话语语义关系的计算识别方法更具有表现力和实用性。对于给定的文本,依据修辞结构和语义关系的判定,便可以得到一定程度的话语语义信息。
基于话语结构的话语意义的计算研究的局限性,主要由于篇章结构分析复杂,为了提升可操作性,修辞结构和宾州树库以篇章结构的部分假设为前提,对修辞结构以及语义关系进行分析,然而不能确保语义关系的完整性。和隐式关系识别存在的问题一样,对于结构修辞关系的识别,目前主要侧重挖掘篇章内部的特征,并未涉及篇章外的语义知识,因此,也影响了话语语义关系的识别结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。