5.4.4.1 实验结果
我们以北大CCL语料库中现代文学作品中第501—600句作为测试对象。如果按照中科院的分词系统进行分词,我们不做人工干预,那么结果显示系统能够判断[坏]的语境意为37例,正确率为37%。如果按照我们设定规则中的分词进行计算,那么系统判断的正确率为83%。
下面我们分别给出六个实例,分析结果如图所示:
(1)擦着伤处的夜白飞,点燃了残烛,用一只手挡着风,照映出小黑牛打[坏]了的身子——正痉挛地做出要翻身不能翻的痛苦光景,就赶快替他往腰
【文件名:\\现代\\文学\\现代短篇.文章标题:山峡中作者:艾芜】
(2)蓑衣坐在河沿,没有想到,我也不愿意那样;我知道给男人做老婆是[坏]事,可是你叔叔,他从河沿把我拉到马房去,在马房里,我什么都完啦。
【文件名:\\现代\\文学\\现代短篇.文章标题:生死场作者:萧红】
(3)要留到最后才用它!厂里的工人并不是一个印板印出来的;有几个最[坏]的,光景就是共产分子,一些糊涂虫就跟了她们跑。
【文件名:\\现代\\文学\\矛盾子夜.】
(4)况且还有刘玉英!这不要脸的,两头做内线!多少大事[坏]在这种“部下”没良心,不忠实!吴荪甫想起了恨得牙痒痒地。
【文件名:\\现代\\文学\\矛盾子夜.】
(5)挑得特别吃劲,摇摇摆摆的使那黄篓左右的幌……美丰楼的菜不能算[坏],义永居的汤面实在也不错……于是义永居的汤面?还是市场万花斋的
【文件名:\\现代\\文学\\现代短篇.文章标题:九十九度中作者:林徽因】
(6)一面喝道:“挤得那么紧!单是这股子人气也要把老太爷熏[坏]了!——怎么冰袋还不来!佩瑶,这里暂时不用你帮忙;你去亲自打电
【文件名:\\现代\\文学\\矛盾子夜.】(www.daowen.com)
图31 例(1)解析结果
图32 例(2)解析结果1
图33 例(2)解析结果2
图34 例(2)解析结果3
图35 例(3)解析结果
图36 例(4)解析结果
图37 例(5)解析结果
图38 例(6)解析结果
5.4.4.2 实验结果分析
实验结果分析表明,在人工干预分词系统分词结果的情况下,系统模型对目标词计算的正确率为83%,然而还有17%的情况无法做出判断。通过分析,总结了影响系统判断结果的四点主要原因。
一、由于我们无法穷尽以目标词为驱动的所有可能出现上下文语境词。因此,语境知识词典的容量受限。目前,语境词典只是基于现有的语料,一旦规则没有匹配,便无法计算。解决的途径可以通过建立常用目标词搭配词典,这样一方面为目标词语境知识库扩充了容量,另一方面也为话语隐式关系的判断提供了语义知识资源。
二、由于分词系统的分词结果和人工分词的结果会出现差异,从而导致短语组块规则的归属错误。解决办法就是对于出现异议的分词结果进行人工调整,然后重新进行计算。如例(2)中,分析结果第一次显示未找到匹配项,由于分词系统将“坏事”切分成一个名词,而我们设定的规则是将“坏事”作为词组,切分成两个词[a]+[v],这就导致规则不相匹配。因此,我们人工调整句法解析的结果,系统弹出“找到多个匹配项目且语境目标词个数存在相同,返回第一个匹配项”,这是由于句中出现多个目标词所导致的。这种情况下,我们只计算第一词出现的目标词的含义。我们在第三次修改分词结果后,系统计算成功。
三、由于语料规模的限制,这将导致短语结构规则也受限,所以有些语句无法计算结果。但是系统匹配的规则是一个开放集,我们可将新生成的规则逐渐向规则库添加,从而使规则库更加完善。如例(4)中,在我们的规则中缺少此匹配项,此时,可人工或利用机器自动学习的方式将新规则添加到规则库中。
四、由于短语结构规则的生成能力过于强大且不受约束。我们如果想要穷尽所有规则,那么需要大规模的语料标注。同时,还需要通过人工或计算机不断监测新生成的结构规则,并择取新规则所属的语义框架。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。