理论教育 话语意义可计算:语料处理与知识库构建

话语意义可计算:语料处理与知识库构建

时间:2023-10-30 理论教育 版权反馈
【摘要】:本模型所用的训练语料为北京大学CCL语料库现代文学作品,从中我们择取了包含单子[坏]的前500个例句。/wj目前,系统中的语义框架知识库和候选语境知识词典都是通过人工构建完成的。针对目标词语义词典的构建,我们参照《现代汉语词典》第六版。

话语意义可计算:语料处理与知识库构建

本模型所用的训练语料为北京大学CCL语料库现代文学作品,从中我们择取了包含单子[坏]的前500个例句。词义消歧处理后,我们选取目标词左右20个词的范围为上下文窗口。为了给上下文语境的推理提供可计算的信息,我们选择含有目标词的整个段落作为上下文,这样更有利于查找与目标词语义相关的候选语境词来扩充语境词词典。这里我们遵照各段落自身的长短,对于由几十个词组成的句子或者上百个词的句群组成的句子,原则上不做区别处理。

短句如:想/v烫/v坏/a我/rr吗/y

句群如:但/c同时/c亦/d深/d不/d以/p她/rr的/udel轻视/v孙/nr1舞阳/nz为/p然/rz;/wf她/rr说/v“/wyz但是/c孙/nrl舞阳/nz的/udel名声/n太/d坏/a了/y”/wyy,/wd可知/v她/rr也/d把/pba孙/nrl舞阳/nz看作/v无耻/a的/udel女子/n。/wj

目前,系统中的语义框架知识库和候选语境知识词典都是通过人工构建完成的。针对目标词语义词典的构建,我们参照《现代汉语词典》第六版。框架知识库通过义项归并语义,进而抽象为框架,语料中新出现的框架逐步向框架知识库内补充,从而生成框架语义知识库。上下文语境词典通过人工构建,我们借助语言学知识提取上下文中与目标词相匹配的语境词。我们以带[坏]的句法结构的句子为例:

在《现代汉语词典》第六版中,[坏]的词义总计6项,义项0是通过分析北大CCL语料库中500个包含“坏”字的句子的句法结构,人工总结出来的新义项。如表4所示:

表4 目标词语义词典

根据以上7个义项,将与“坏”有关的语义框架归并为以下三种,如表5所示:(www.daowen.com)

表5 框架语义知识词典

通过词法分析技术,抽取句中[坏]的短语组块特征,我们从北京大学CCL语料库中抽取带有[坏]字的前500个句子作为规则制定的样本,其中表评价类占70 %,表亲密类占5%,表程度类占20%,其他占5%。通过人工总结[坏]的句法结构如表6所示:

表6 短语规则

续表6

系统中的框架语义集、短语规则,以及语境知识词典都是开放的集合,可随语料库的不断扩增进行完善。由上表可以看出对框架和具体句子的匹配,我们主要利用了制约条件。制约条件(constants)是指语言项的形式与语义是密切联系、相互制约的。语言项的语义制约着其形式上的可能的表达,而形式又可以对能够进入该结构的词语有意义的限制。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈