理论教育 确定目标词意图:5种方法

确定目标词意图:5种方法

时间:2023-10-30 理论教育 版权反馈
【摘要】:确定目标词语境意的过程:首先,计算机通过分词软件处理,根据处理后的词性标记代码匹配短语组块规则,从而判断目标词所属的语义框架;其次,通过目标词所属语义框架匹配frame id;最后,通过frame id匹配word id,以上为判断目标词所在句语境义的全过程。这种动态语义信息作为约束条件限制话语意图的生成,从而计算给定文本中目标词或话语的在特定语境中的含义,即话语的意图。3)根据frame id所对应的word id判断具体语境意。

确定目标词意图:5种方法

确定目标词语境意的过程:首先,计算机通过分词软件处理,根据处理后的词性标记代码匹配短语组块规则,从而判断目标词所属的语义框架;其次,通过目标词所属语义框架匹配frame id;最后,通过frame id匹配word id,以上为判断目标词所在句语境义的全过程。话语的意图就是超出语义词典产生的特定的话语含义。我们将话语意图计算过程的逻辑思路表述如下:

话语意图逻辑计算流程如图30所示。

图30 意图理解实现流程

如果想要系统实现对话语意义的准确理解,那么构造语义集是关键。语义集包含以下内容。

(1)词语的基本义项,即语义词典中词语的具体含义,目的是获得话语的字面意义。

(2)基本义项之外的词语的特定含义,这部分的语义来源是动态的,是通过目标词激活的背景语义框架后得到的动态语义信息。这种动态语义信息作为约束条件限制话语意图的生成,从而计算给定文本中目标词或话语的在特定语境中的含义,即话语的意图。

1)通过句法分析技术,提取[坏]的句法结构(已经人工分类整理完毕31条规则)。

2)根据我们已总结的[坏]的短语组块规则,可以判断[坏]所属语义框架。

3)根据frame id所对应的word id判断具体语境意。

4)当候选句法结构相同时,如,[adv.]+[坏],既属于表示亲密关系的框架,又属于表示评价关系的框架,[坏蛋]作为名词,既属于表示亲密关系的框架,又属于表示评价关系的框架。换言之,当组块规则所对应的框架值≥2时,如何确定所属框架和最终义项?此时,我们遵循如下原则。

ⅰ)常用搭配筛选。若[坏]隶属“亲密”框架,其上下文中通常伴有如“男/女友”“宝贝”“爱人”等用来指称人物的名词,“愉悦”“开心”“高兴”等用来表示心情之类的形容词,以及“爱上”“喜欢”“脸红”用来表示情感态度之类的动词。以[坏]这个目标词为驱动,通过上述示例中在文本上下文中出现的同现词,以此构建以目标词为核心的上下文语境词典中的词项,这就是以目标词为驱动的语境词典的构建过程。

然后,我们以词典中的词项为搜索对象,与目标词上下文中的语境词进行匹配,通过同现率进行计算。通常情况下,高频同现语境词的目标词的语境义比较容易判断。这里,目标词的同现,实际上是一种隐性连贯关系的体现,可通过词汇的匹配进行识别,如我们上章中所提及的关于以动词为核心的搭配关系,“滑倒—住院”。因此,我们认为有必要对这些与目标词高频同现的词语,再建立一个独立的匹配知识库来作为程序处理时的知识源。根据目标词系统,我们直接查询原始文本,以便快速找到同现的搭配和所属框架,进而获得目标词的具体语境义。

独立匹配知识库的建立基于以上500个训练语料中的词汇搭配,如下所示。

①[a]+[坏蛋/n]

frame id 2;word id 0语境知识词典:不好意思,男人,红脸,恋人,男友,女友,亲密,高兴,欢喜,爱,喜欢。

Frame id1;word id 2语境知识词典:骂好人,打好人,刁横,封建的,不济,监视,骂道,装蒜,揍,棒子轮上,对头,恨,有所企图,假充,利用,假使,不道学,假道学,骗到,猜猜看。(www.daowen.com)

②[d]+[坏/a]

frame id 2;word id 0语境知识词典:笑嘻嘻地,恋人,男友,女友,亲密,高兴,欢喜,爱,喜欢,笑着,动情,微微笑。

Frame id1;word id 2语境知识词典:剥削,滚,脾气躁,怂恿,死,可怜,怀疑,违背,敷衍,世界末日,否定的,学风,阴霾,骂,成绩,龌龊,监狱,打骂,敌人,愠怒的,琐碎的,烦恼,罪恶,凶徒,发愁,衰老,发脾气,怨言,闹得,运气,印象,堕落,感情。

ⅱ)依据概率推断目标词语境义的过程有两种解决方案:第一种方案是在直接输出目标词所属的框架之后,进行人工筛查进行逐一判断,这样做耗时耗力;另外一种方案是通过计算概率统计筛选出最有可能的义项,作为目标词语境义的输出结果。从认知的角度讲,这是一个选择最佳关联的过程。具体实例分析如下。

假设一段给定的话语,由目标词t构成的上下文语境词的向量为X={x1,x2,x3,…,xn},语境词数量即XN={1,2,3,…,n}。目标词t的义项yi构成向量Y={y1,y2,y3…ym}。在语境词向量X中,与义项y1,y2,y3…ym有语义关系的候选语境词数量为j1,j2…jm,其中,j1+j2+…+jm=XN。那么在此特定语境中y1,y2,y3…ym出现的频率可表示为:

tn(y1)=j1/XN,tn(y2)=j2/XN,…tn(ym)=jm/XN

用tn(ymax)表示取得这些频率的最大值:

tn(ymax)=max{j1/XN,j2/XN,…jm/XN

因此,取频率的最大值tn(ymax)所对应的义项yi,即目标词t最有可能的在该语境中含义。(刘根辉,2017)

例如:女孩说坐在她前面的那个男孩[真坏],品质恶劣,经常欺负低年级的同学。

这段文本中的候选语境词共计15个,在语境知识词典筛选匹配后,输出8个(下划线标注)与目标词义项有关的语境词,[真坏]的短语规则为:[d]+[坏/a],与其相对应的框架有两个:Frame id1:评价,对应word id 1/2。Frame id2:亲密,对应word id 0。

由此可知:t8(y1)=1/2,t8(y2)=1/4,t8(y3)=1/4

tn(ymax)=t8(y1)=1/2

因此推断目标词在该特定语境中的的含义项为y1,对应框架Frame id 1,具体语境义为Word id 1。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈