上节中我们讨论了语境在话语意义计算研究中的必要性,下面我们将对基于语境分析的话语理解做进一步的探讨。首先,我们强调了语境在自然语言处理和理解中的重要作用,同时介绍国内外如何通过语境理解自然语言;其次,我们界定了语境的分类及其在话语意图计算中的形式化定义,并提出一种基于语境的话语意图计算的实现框架;最后,我们总结了基于上下文语境和背景语境的话语理解的实现模型。
5.3.1.1 话语意图计算中语境的作用
语境(context)概念在认知科学、语言学、人工智能和计算机科学等领域均占有重要地位。在计算机科学与人工智能研究中,由于研究领域的不同对于语境概念的理解和表达方式也有所差异。例如,在软件开发领域,语境用来处理各种数据,通常被叫作视点(views)、角色(roles)或者特征(aspect)。在机器学习领域,语境作为环境信息,被用来分类管理知识或进行逻辑结构推理。在自然语言处理领域,语境是语言使用的环境。
文本和会话是自然语言处理的对象。目前,随着文本处理技术的提升,在不考虑语境的情况下,通过非受限文本来构建知识库相对容易。语音处理技术的发展也提高了自然语言理解系统的准确率。但是对于会话的理解,特别是包括多话轮(turn-entries)的多重会话,即使我们排除语境的作用,对于计算机而言,也很难理解。
在面向自然语言处理的话语理解中,尽管很多研究者已经认识到语境问题的重要作用并指出话语计算中与语境有关的诸多问题,但是由于处理深度不够,理论还不能应用于实际问题的处理中。在理论层面,研究缺少用来分析语境制约话语理解的系统的语境理论。实践层面,以往研究更侧重于语境分类中细节问题的讨论,以及各种语境因素的描述和分析,但是这些研究对话语意义的计算并没有促进作用。如上节所阐述的,语境的构成因素会随着交际环境的改变而改变,而动态语境理论的提出,解决了语境在话语理解中所遇到的问题。
国内目前针对汉语句法和语义方面的计算已经成熟,而基于语境的话语意义的计算还处于初步阶段。张普(1992:516-540)从以下几个方面介绍了语境研究的应用前景:汉语自动分词和理解、机器翻译、语音识别等。郑洁、茅于杭、董清富(郑洁,2000)通过单词和语境的关系解决了英汉机器翻译系统(ECMT)中的语义排歧问题。钱树人(1993)在剖析系统歧义与语境关系的基础上,构建了模型系统(CAAMS),此系统用来解决汉语语言片段的歧义分析。简幼良、高健、王秀坤(1997)通过语境类似度判定并列成分,从而提升日汉机器翻译的性能。
俞士汶曾指出语境在汉语自然语言理解中的重要作用(俞士汶,1997):在自然语言理解领域中,随着语义分析受到越来越多研究者们的重视,对于语境的分析是必不可少的。如果我们将“小李上课去了”这句话翻译成其他语言,起码要通过上下文理解小李是否是授课教师。鉴于语境的分析结果是动态的,因此系统需要一个动态语境知识库来存储语境的分析结果。分析程序要参照动态语义知识库。以上表明,要想在话语的范围内正确地理解每一个句子,必须突破句子的界限。同时他认为计算机处理话语的核心目的就是获得句子结构形式化的机内表示方法,这需要以句法、语义和语境分析为基础。语义分析和语境分析用来消歧句法分析的结果。
以上讨论了语境在话语意图计算中的作用。但是囿于自然语言理解中很难限定语境所涉及的知识范围,想要对语境进行全面描写或者形式化处理还需逐步完善。下面我们就话语意图理解过程中语境形式化问题进行进一步讨论,基于刘根辉(2017:95-99)对语境概念的界定及对语境的形式化描述,我们以话语的语境分析为基础,提出话语意图理解模型的实现方案。
5.3.1.2 语境的类别
语境是“语言使用的环境”,但对于自然语言处理领域,语境的分类需要具有计算性和可操作性。目前,在人工智能领域,有关语境最棘手的问题就是语境的表示和推理常识知识(common sense)的问题。常识知识库Cyc的作者指出:“构建知识库是人工智能必须要走的路,而且目前还没有更有效的方法去获得如此庞大的知识库,利用人工逐条输入每一个断言是现阶段知识库的构建途径。”(Guha R V,1991)语境构成的复杂性限制了自然语言处理的发展,有鉴于此,我们需要重新界定语境构成的范围。
语境被认为是言语交际的环境。如果从范围上对语境进行分类,可将语境分为三类:第一类是上下文语境,即以当前句为中心,其前后范围内的句子;第二类是情境语境,即言语交际的时间、空间环境,包含具体的物质环境以及其所具有的性质特征;第三类是背景语境,指个人背景以及社会文化背景。(孙维张,1991)
语境决定了话语的意义。Sperber和Wilson从关联性的角度出发,提出语境并非是既定的,而是经过选择生成的,语境是心理的产物,是话语理解者对于世界的一系列假定中的一组。语境和关联性的顺序为,先给定信息的关联性,人们在交际中会先假定正在处理的信息是相互关联的,在此基础上,才设法择取具有最佳关联性的语境。
5.3.1.3 语境在话语意图计算中的形式化描述
5.3.1.3.1 语境的外延与内涵描述
如果将话语限定表意范围,那么每个文本或话语都有一个语义中心,我们设定为目标词中心,以目标词为驱动的各种语境因素可归总为三类(徐默凡,2001);上下文语境指除目标词外,目标词所在上下文中与其相关的词语和句子;现场语境泛指交际过程中的各种环境因素,如语音特征、视觉信息等;背景语境主要包含交际的认知心理和社会文化环境等。以上三类语境均为开放集合,用集合论方法表示如图20所示。(刘根辉,2017)
图20 语境构成的集合论表示
(刘根辉,2017)
其中,T(target)为目标词,C(context)表示以目标词为核心的话语上下文语境、L(Local context)为现场语境、B(background context)为背景语境。现场语境与上下文语境之间是独立的,它另属于目标词单独的语境构成范畴,则用虚线标示。背景语境作为开放的集合,它与上下文和现场语境之间也不具备从属关系,也应用虚线标示。由上图可知,上下文语境、现场语境和背景语境这三部分构成了目标词的语境总和∑。图20还显示出构成语境的三个层面之间与目标词关系的亲疏程度。其中上下文语境与词语、句子的语义关系最为紧密。
严格地讲,语义研究属于语义学,主要关注语境对语义内容的制约,倾向于词语本身引起的歧义问题。语境的研究属于语境学,主要关注语境如何约束语言表达,包括在话语生成和理解过程中,语境特定意义的各种约束条件。语义研究与语境研究二者既有联系又有差别,在以下讨论中,我们会给予一定的区分。
5.3.1.3.2 语境及话语意图的形式定义
在自然语言处理领域,语境为语言的使用环境,它同时受到客观条件的约束。词语的语义由词语的义项构成,句子的语义由句子的义项构成。语义集合的构成即为词语语义和句子语义的总和,此语义集合即为这种语言的语义空间。至此,我们给出语义空间的形式定义。(参照刘根辉,2017)
定义1:语义空间
假设,如果则为语义空间,,集合M代表所有词义项,集合P代表所有的句子义项,M*是M的集合闭包,P*是P的集合闭包。
自然语言理解的前提是语境约束(context constraint),即通过语境条件集分割语义集合,分割结果确保集合为非空集合。又集合论表示的语义空间如图21所示。(刘根辉,2017)
图21 词、句语义构成的集合论表示
(刘根辉,2017)
其中mi∈M,pi∈P(i=1,2,…),X、M、P含义分别代表上述的语义空间,词义项集合和句子义项集合。
鉴于话语语境义是基于词语语境义,因此首先给定词语语境定义。
定义2:词语语境
词语语境Ω=(C,L,B,δ),其中
上下文语境元素集:C(context)
现场语境元素集:L(local context)
背景语境元素集:B(background context)
语义框架元素集:F(Frame)
在确定具体的词语语境的过程中,背景语境用语义框架来体现即:
选择函数δ,是从C×L×F到(C∪L∪F)*的映射:(www.daowen.com)
δ:C×L×F→(C∪L∪F)*
C×L×F表示笛卡儿积,即三个集合中元素的所有可能对应组合形成的集合群,(C∪L∪F)*表示集合的闭包。
由于具体语境中词语必定有意义,无论目标词是否为单义性,其语境集合都不能为空集,即C、L、F、B不能为空集φ。只是单义词性词不受语境条件制约。
进而,我们给出目标词语境义的形式定义的描述。
定义3:目标词语境义
词语的语境义Q是一个五元组:Q=(T,M,G,Ω,λ)其中,这里T(target)是目标词ti(i∈N)的集合;
M的含义同语义空间定义,在这里是指目标词集合T中各元素ti(i=1,2,3…)的所有义项构成的目标词语义集合,语义空间中第i个目标词的第j个义项表示为mij(i,j∈N);
目标词ti(i∈N)的语法信息集合G(Grammar),第i个词的第k个语法信息项在语法信息词典中表示为gik(i,k∈N);
根据定义2可知,Ω的组成元素是目标词ti的语境集合;
转换函数λ,由M×G×Ω到M的映射:
λ:M×G×Ω—>M*
根据目标词ti的组块语法功能确定义项mij,再由上下文语境,现场语境以及背景语境构成的语境Ω来约束义项mij,此时得到的结果,可能不在语义信息项和语法信息项所确定意义的范围内,这个新生成的组合意义即为目标词的语境义。
话语的语境意义即话语的意图,是话语生成者与话语理解者之间通过三种语境因素的共同作用的结果。同时也是要表达的意义和被理解的意义最终达成的一致的结果。话语生成者通过各种语境因素表达他的话语意图,话语理解者以各种语境因素理解话语生成者的意图。具体来讲,在三种语境中,相比于背景语境,上下文语境和现场语境更客观一些。背景语境不易控制,它受交际主体的心理认知的影响,或者说背景语境是一种个体的认知语境,它在话语交际过程中起主要作用。如果话语理解者捕捉到话语要表达的含义,说明双方共同的认知语境在起作用,换言之,交际双方具备了相同的认知语境。
综上分析,在描述词语语境义之后,我们进一步给出话语理解过程中语境的形式定义。
定义4:话语语境
话语语境∏包含四个元素集:∏=(C',L',B',θ),其中上下文语境元素集C',是话语生成者和话语理解者在一次完整交际中共同关注话题外的上下文词语的集合;
现场语境元素集L',是交际双方在交际现场由于共同关注的话题所感知的环境因素形成的集合;
背景语境元素集合B',是交际过程中,由上下文语境和现场语境之外的,即不能直接感知的语言外的世界构成的环境因素的集合,语义框架元素集合F'⊆B',即背景语境抽象的概念集合,用来替换背景语境集B',
θ是选择函数,是从C'×L'×F'到(C'∪L'∪F')的映射,有:
话语语境是由话语理解过程中上下文语境、现场语境以及背景语境构成的语境集合,词语语境可以协助理解目标词所在句的话题信息,而话语意图的生成和理解直接受话语语境的约束和影响。
以下为话语字面意义与话语语境义的形式定义。
定义5:话语字面意义
U(话语的字面意义)由一个四元组构成:U=(T,M,G,η),其中T是目标词ti(i∈N)的集合;
M的含义同定义1是由语言中各个词的全部义项组成,具体而言,指目标词T中各元素ti(i=1,2,3…)的所有义项构成目标词的语义集,其中构成元素第i个词的第j个义项的表示方法为mij(i,j∈N);
目标词ti(i∈N)的语法信息集合表示为G,第i个目标词的第k个语法信息项在语法信息词典中表示为gik(i,k∈N);
η是选择函数,是从M×G到P的映射:
以上,依据语法分析和目标词的词语义项筛选后,生成话语的字面义即规约意义(conventional meaning):
定义6:话语语境义
话语的语境义I(Implicature)由四元组构成:I=(T,U,∏,τ)
T是目标词ti(i∈N)的集合;
U是由四元组构成的话语字面意义的集合,元素构成见定义5;
∏是由四元组构成的话语语境集合,元素构成见定义4;
τ为转换函数,是从U×∏到P的映射:
即话语通过∏的语境条件约束,获得字面义U之外的话语的意图或会话含义(conversational implicature)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。