理论教育 话语单元识别方法研究

话语单元识别方法研究

时间:2023-10-30 理论教育 版权反馈
【摘要】:话语单元的切分和识别,为话语标记语所引领的边界范围的确定指明了方向。同时,话语单元2又是由2.1和2.2两个话语单元构成。

话语单元识别方法研究

上节我们通过话语标记语判断话语的连贯关系,这属于计算机的浅层识别。分析的结果表明,话语标记语可以直接识别一些结构简单的话语之间的局部和整体连贯关系,而对于句子结构相对复杂语段,仅依据话语标记语进行连贯关系的识别会出现一系列问题。因为话语标记语尚不能明晰地标示语段或者话语单位的大小。话语单元的切分和识别,为话语标记语所引领的边界范围的确定指明了方向。

话语单元是话语中最小的语法单位,具有独立性和表述性的特点,它以不同的连接方式组成分句或句子,进而形成更大的语言单位。例如,段落或者话语。目前,对于如何切分话语句子的基本单元是面向自然语言处理的话语意义计算的首要任务。

4.3.2.1 基本话语单元的切分

由实体、事件等信息通过某种语义关系组成的文字序列称为句子,话语层次的句际关系的分析是词汇和句子层面的话语结构深层次的理解。通常情况下我们认为句子是构成话语的组成单位。屈承熹(2006:270)提出句子在汉语中的定义还没有明确的标准,“汉语句”是小句(clause)的上级结构单位,篇章的基本组成单位是小句,句子由小句构成。同时,屈承熹(2006:271)给小句下了明确的定义,即“小句中至少包括一个谓语,谓语的形式没有限定”。徐赳赳(2003:58-59)划分小句的标准是将小句设定为包含一个主谓结构的句子,包括主语是零形式的句子,而停顿和功能作为划分小句的次要标准。从自然语言处理的角度,宋柔(2000)指出语言学中对汉语的“小句”并无公认的定义。陈平(1991:182)将小句定义为:“被逗号、句号、问号等标点符号切分开的语段。”以上对小句的划分,均将标点符号作为切分的依据,这样的划分标准更利于计算机自动处理自然语言。目前,英文中主要基于概率模型切分话语单元,而汉语由于逗号特色的问题,现阶段主要解决逗号的消歧问题,即如何将长句切分为短句,还未涉及句内话语单元的切分。

我们可以将句子看成由话语单元组成的一棵树,话语单元之间的关系如同树的枝叶之间的层次关系,我们看下面的例句:

外面虽然晴空万里,但是天气预报播报今天有雷阵雨,最好带上一把伞。

释1[外面现在虽然晴空万里]edu1,[但是]connective[天气预报播报今天有雷阵雨,最好带上一把伞]edu2

释2外面现在虽然晴空万里,但是[天气预报播报今天有雷阵雨]edu1,[最好带上一把伞]edu2

释3[外面现在虽然晴空万里]edu1,[但是]connective[天气预报播报今天有雷阵雨]edu2,[最好带上一把伞]edu3

释1将例句分成两个句间关系,关系1由显式连接词[但是]连接,表转折关系。释2中的两个小句是隐式的因果关系

假设如果我们只利用逗号来分割话语单元,那么切分结果如释3所示,句子被分割为三个同级别的话语单元。换个角度,如果我们以话语标记语作为识别的标志,也存在同样的问题,[但是]在句中管界的右边界无法确定。

通过人工进行干预,我们发现表达转折关系的连接词[但是],只连接edu1和edu2,不包括edu3。主要由于句子内部的话语单元是有语义层次的,只依据逗号进行简单的分割否定了话语单元的语义层次的特性,类似的,话语中的句子也通过段落的语义层次组织表达。

虽然话语的语义信息无法穷尽,但是作为表达语义的信息间的组织规则是可控的。句子中作为实词的名词和动词是组成句子的关键。在依存分析中动词被称为核心词Head,话语单元作为句子的最小单元,它具有独立性和表述性的功能,理论上讲,基本话语单元应该至少存在一个动词。因此,可以基于短语结构来构建以动词为核心的话语基本单元的识别规则。

话语中的基本单元可能存在交错层次且互相嵌套。有鉴于此,我们基于递归原则来设定话语基本单元的识别规则:第一,一个基本话语单元具备一个动词短语;第二,如果小句作为话语单元,当且仅当小句中含有一个(主)谓结构,即小句中存在一个基本话语单元;第三,基本话语单元可以组合成话语单元;第四,处于相同层次的话语单元间存在语义关系。最终,话语中的每一个句子表示为一棵由基本话语单元组成的话语单元树,如图9所示。(姬建辉,2015)

图9 基于短语结构分析的语义单元树(姬建辉,2015)

话语单元1和话语单元2组成了一个完整的话语单元句子。同时,话语单元2又是由2.1和2.2两个话语单元构成。图9的语义单元树部分地解决了依据逗号切分小句所带来的问题。

鉴于汉语中小句划分的标准尚未统一,且囿于计算机处理汉语的能力,以动词短语为核心的识别语义关系的方法,虽然部分解决了以标点句为核心的切分方法所带来的问题,却不能覆盖全部的实例。由于中文的表达随意性,类似名词类独词句、感叹语或者称呼语,它们即便不含动词,但也具有独立的语义。只是基于我们的规则,将这些视为无效语义。

4.3.2.2 组块的识别

由于以VP为核心的基本话语单元有时结构成分复杂,所以计算机很难对切分后的结果进行句法语义分析,这时还需要将EDU再进行细分,也就是对组块的计算。

4.3.2.2.1 组块在认知心理上的研究

心理学上,“组块”(chunking)指信息通过记忆加工,从而形成更大单位语块的过程。由于短时记忆的容量有限,这时可以通过组块对脑中已储存的知识重新编码(recoding),以语块的形式形成新的知识,并进入长时记忆,以便随时检索提取。此过程为记忆的组块效应(effect of chunking on memory),又称作为短时记忆策略(STM strategy)。

在20世纪四五十年代,心理学研究提出语块对语言识别、学习和认知过程的重要性。目前,很多心理学家就信息加工对短时和长时记忆的区别,讨论了语块和人类记忆之间的关系。(缪海燕,孙蓝,2005)

米勒Miller(1956)指出短时记忆的容量是有限的,分为记忆时间的有限性和记忆保存容量的有限性。记忆时间大概为10秒,而记忆的容量为7±2个单位。米勒提出短时记忆更适合“碎片”信息的存储。相对短时记忆,“碎片”信息需要进行再次编码,从而形成语块方能进入长时记忆。Simon(1974:482-488)在区别不同心理学实验数据后,提出更加具体的短时记忆的容量单位为5个单位。同时,认为人类记忆的基本单位是语块,这更加印证了语块的心理现实性。Cowan(2000)在研究大脑的储存能力后,提出人类短时记忆的容量是4个单位。

虽然学者们对于工作记忆的确切容量没有定论,7±2只是我们即时处理的大致焦点范围。但是米勒提出的工作记忆容量限制下的组块原则,已为很多心理实验所验证且被普遍接受。(卡罗尔,2004)

概括而言,组块就是将输入的个别、离散的信息重新编码,并将其组织为更大的、有意义的单位的过程。通过把相关的几个小项目合为一个大项目,减少基本块数,从而将信息量控制在记忆所容许的范围内。(马国彦,2010)组块的意义不仅在于将信息量控制在工作记忆时间范围和容量范围内,还可以提高信息处理效率和工作记忆的能力。

在组织为更大的有意义的组块时,这个“有意义”是“个人的、私人的,符合私人逻辑的”,而不是信息的固定意义和公认意义,它是一种心理联系。369755281这个数字由369、755、281的三个组块组成,这三个组块对很多人都没有意义,但是对高中学号一直是369,门牌号是755,手机尾号是281的人来说就不一样了。369755281这个数字就从9个信息变成了三个组块。这三个组块作为一个人的QQ(及时通信工具)号码多年使用以后,就变成了一个组块。在100024369755281这个15个零碎信息组成的数字中,上面那个人就可以把369755281作为一个单独的语块处理,而100024是北京市朝阳区某区的邮编,类推则可得出上面的100024369755281可以作为两个“更大的有意义的”组块出现。(www.daowen.com)

组块效应对人类的认知世界起着至关重要的作用。我们的记忆是自动加工信息的,间或需要有意识地加工信息或者控制性地加工信息。现在话语的意义的计算研究方向可以从如何使话语变成对计算机可计算的组块的集合进行努力。通过“控制性的、有意识的加工”,使话语的可计算性成为可能。话语的可计算性其实就是使篇章对计算机有意义。计算机能够按照有意义的、更大的组块所形成的一个“意义的整体”对篇章进行处理,而不是仅仅基于“零碎的”“散乱的”“单个的”信息点进行处理。

4.3.2.2.2 组块在自然语言处理上的研究

(1)语义组块定义

组块分析是话语意义计算研究的基础性工作。基于研究的角度不同,以下研究者对组块体系的描述也不尽相同。李素建(2002)提出,汉语组块属于短语结构,其内部包含核心词,而句中的其他成分都是以核心词为中心的拓展,这符合语法功能,使组块具有非递归性的特点。周强(1999)提出以研究组块的边界研究为切入点,他介绍了词界块和成分组这样两个概念。他以边界的判定作为一种句子的拓扑结构,这种结构独立于语法的描述形式。最终,形成一个完整统一的组块描述体系。其后,通过该体系的不断完善,他又对基本块、功能块和事件描述小句等进行了界定,并对汉语组块进行穷尽性和线性的标记,从中归纳了8种组块形式,这为汉语组块资源建设提供了大规模的语料资源。孙广路(2011)等提出组块是特殊的短语形式,它由具备句法功能的次序列组合而成,其内部由前置修饰语和核心词这两部分构成,后置附属短语则排除在外。组块与组块之间不允许重叠,它们独立存在且具有非递归性。该体系对词语组块的切分只依据词语、词性标注等类似的表层信息,尽可能从大颗粒度进行划分。这种划分标准不关涉组块之间的跨度以及句子的整体结构。

目前,对于汉语组块分析,学界还没有达成统一的共识,缺少统一的描述体系。基于不同的研究目的,分析的体系各不相同。在自然语言处理领域,语义组块的分析属于浅层的句法和语义分析。组块长度介于词语和句子间,目的是通过语义组块来解释语法和语义之间的关联。

(2)句子组块

在国内的语法届,陆丙甫(1986)是最早根据工作记忆容量对句子进行组块分析的学者。他认为组块从句子的第一个字或词开始,从左到右或从前向后连接,直至搜寻到一个核心词,通常是名词或动词,然后将这一与核心词相联系的短语暂时储存为一块,如名词短语、动词短语等。组块的结果是由核心动词所控制的一个直接成分结构。他认为句子的基本单位是“块”而不是单个的词。

通过总结陆丙甫(1986)等学者的研究,马国彦(2010)指出句子的组块处理有以下三点。

1)句子组块中,控制组块程序的是句子的核心,也就是谓语动词。

2)如果句子里是大块包括小块,那么小块之间的位置变动,不能越出大块的界限。

3)递归性:大块中可以嵌套小块,小块之中可以嵌套更小的块,从而形成递归循环。

(3)篇章组块

自然语言处理中借用组块进行处理的对象一般是篇章。篇章的自上而下的组块方式意味着表达和理解是两个维度的过程,方向相反,性质相近。一方面,条理逻辑的表达需要组块。组块是思维逻辑和人际功能的表现。另一方面,理解也需要组块。理解是通过识别篇章结构关系进行的组块处理,通过组块抓住篇章的骨架,从而提高理解的效率和能力。

马国彦(2010)将篇章的组块原则总结如下。

A.自上而下原则:篇章组块按照自上而下的方式对句群进行整合,整合的关键是找到能够通过某种结构或语义关系将句群控制起来的标记。也就是说,一次篇章组块要运作起来,关键是找到一个整合标记,或者是组块标记。

B.结构和语义关联原则:原则A中找到的组块标记能否发挥整合功能,需要参考该标记是否和句群之间有结构或语义上的关系。如果有,这就意味着话语单位之间具有关联性,从而使这些单位同时属于一次组块活动。

C.完型或闭合原则:每一个组块都有范围。组块的有效性恰恰在于范围的划定,组块的边界是标记组块的结构和语义关系终止于某处的关键信息。

D.递归性原则:组块是个动态过程,任何一个组块处理后的结构块都有可能在下一个组块中形成一个成分,重新参与高一层次的组块过程。

E.层级性原则:递归性决定了组块的层级性,即依据递归组块原理重复进行组块操作,从而完成对篇章的层级建构。

根据篇章组块的原则,马国彦整理总结出篇章组块分析方法的特点:①强调自上而下;②通过管界判断,将多个结构单位控制在组块范围内;③与自上而下仅仅依靠形式而无法解释语义关系不同,组块分析在形式上和语义上是一致的。因此,马国彦认为从组块的角度来看,传统的连贯分析在很大程度上不是从某种一般理论派生出来的概念,而是对篇章理解的实际过程的说明。

(4)语义组块识别流程

英语句子中的单词以自然分隔的形式呈现,由于汉语句子的词语间缺少这种界限,因此,针对汉语的自然语言处理,如何分词以及词性的标注会影响整个句子的语义的计算。组块识别也面临同样的问题,性能完善的分词系统及带有词性标注的句子是识别语义组块的关键。鉴于汉语句子结构的复杂性,句子中的谓词可能不止一个,同时每个谓词都有各自的谓词-论元结构。为了方便分析,对句中的所有谓词应该单独建立该谓词所对应的句子作为副本,然后分别对这些句子副本进行组块识别。

综合以上分析,语义组块的具体识别流程为:①可利用中科院开发的分词系统对待分析文本整体分词,该系统包含词性的标注;②抽取目标谓词,目标谓词的数量决定拷贝该谓词所在句子的数量,针对句子副本中的谓词进行组块分析:③基于机器学习的方法对每个副本句进行组块识别,并标注每个目标谓词的语义组块。具体步骤流程见图10。(常若愚,2015)

图10 语义组块识别流程图(常若愚,2015)

目前,组块研究在广度和深度上还不够,还有许多理论上的问题需要做进一步的探讨,如从认知的角度考量组块的形成过程,制约组块的原则有哪些等。如果要说明组块理解和篇章结构的关系,需要较大规模的语言理解实验进行验证,通过观察、分析受试者理解话语的过程,从而证实组块分析方法的恰切性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈