从词汇的层面探寻话语概念之间的关系。话语的衔接性分析和概念间的关系主要体现在指代、替换、省略以及词汇的衔接性。词汇的衔接又通过近反义关系、整体部分关系、上下位关系以及词汇搭配来体现。词汇链是通过这些具有衔接关系的词汇构建而成的语义链条。Morris and Hirst(1991)指出词汇链独立于篇章语法结构,但却共同表示出篇章的主题内容。
词汇链在构建过程中通常选择意义相关的名词作为候选词,通过词义的相关程度对已选候选词排查并构建词汇链,针对某一选定的候选词创建词汇链的顺序即文本发展顺序,以此考察其他候选名词是否符合加入词汇链的要求,如果意义相关则纳入此链,否则,另外生成其他词汇链。按照以上原则逐个筛选至排除所有候选名词为止。依此方法我们选取了人民网的一则新闻,并创建了该文本的词汇链。以下是有关春运期间有关留学生志愿者的一篇新闻报道,我们试图构建其词汇链并以此判断报道的主题。
春运路上的留学生身影:在志愿者服务中感受“中国年”
2018年春运大幕已正式拉开。在西安火车站,来自哈萨克斯坦、吉尔吉斯斯坦等国家的20余名西北工业大学外国留学生,正以春运服务志愿者的身份,为来往的旅客提供引导咨询、重点帮扶、应急救援等服务。
留学生志愿者们根据安排,分布在西安火车站的各个岗位。在检票排队处维持秩序、为来往旅客指引方向、在自动售票机前协助旅客快捷取票……每一个岗位都可以看到留学生们积极服务的身影。
在西安火车站候车大厅里,同时开展的还有送春联等文化活动。“中国年,丝路缘,祝大家春节快乐。”统一穿着志愿者红马甲的留学生们手拿春联和“福”字,用标准的汉语向来往旅客表达着祝福。
留学生志愿者Ali表示,参与春运志愿服务,使自己更加贴近中国人的日常生活,也切身感受到了中国的“年文化”,体会到了红红火火的春节氛围。
(来源:人民网-教育频道,2018/2/14)
从这段文本中我们可以判断7条词汇链:
词汇链1:春运-春联-中国年-春节-春联-春运-年文化-春节
词汇链2:西安火车站-西安火车站-西安火车站
词汇链3:留学生-留学生-留学生们-留学生们-留学生
词汇链4:志愿者-志愿者们-志愿者-志愿者-志愿-Ali-自己
词汇链5:旅客-旅客-旅客-旅客
词汇链6:引导咨询-重点帮扶-应急救援-服务
词汇链7:各个岗位-检票排队处-自动售票机前-每一个岗位
从以上7条词汇链可以看出组成词汇链1、词汇链3和词汇链4的相关词汇要多于其他四条词汇链,词汇链1、词汇链3和词汇链4对于整个篇章的贡献度最大,属于超强链。从这三条链便可知篇章讨论的主题。
判断篇章主题是词汇链的作用之一。除此之外,也可以通过词汇链相隔的距离研究话题的持续度。由于词汇链的组成单位是词汇,所以对于给定的文本可以通过几条超强链的组合形成文本关键词,关键词是形成文本摘要的基础,进而可以应用于自动文摘的生成。在词汇链形成的过程中,可以通过候选词的持续度来检测已有话题的持续性,同时也可以预测新出现的话题。
以上分析中可以观察出在同一词汇链中,有很多词汇或短语间都属同指关系。也就是说,在构建词汇链的过程中,如果有指代或同指关系的词汇出现,那么它们必定属于同条词汇链。由此可见指代和同指关系对于构建词汇链的重要性。那么如何判断词汇间的同指和指代关系?(www.daowen.com)
如果名词与代词之间,或者名词与名词间的指称语义(referent)相同,那么这两个词具有同指关系,我们可以将这种关系看成一种等价关系。如果文本中名词或名词短语由某个代词来表示其实体或部分实体,那么此过程即为指代,其中先行语(antecedent)是先于代词并首次出现在文本中的用来指示实体的名词或名词短语,这也是回指(anaphora)的过程。相反,如果代词先于先行语出现,那么指代过程为预指(cataphoric reference)。我们看下面的这个例子:
距离会让我和父母渐行渐远吗
谈及出国留学,在日本东京大学留学的梅睿思说:“父母舍不得我离开他们,但又希望我有一定生存能力。出国后,我们聊天的时间反而比在国内多。”
在美国阿拉巴马伯明翰大学留学的王静思谈及出国前和父母的关系时说:“和父母的关系一般,不吵不闹,互相尊重。”出国后基本上每周都会和父母通过微信联系一次。至于出国留学对自己和父母关系的影响,王静思说:“更能体会父母的不易,一个人在外会更想念父母。出国留学对于拉近和父母的心理距离有一定作用。”
在西班牙留学的李锦说:“之前可能很长一段时间都不会和父母联系,现在我有意无意地一周联系他们5次,次数多了父母都不爱搭理我了。我觉得每天都有好多事和父母说,每天恨不得要聊上两句。”在李锦看来,出国留学让她与父母产生了距离感:她不知道父母的生活细节,父母也不知道她的学习状态。“距离产生美,倒让我们更想了解彼此了。”李锦说。
在笔者采访中,有些学子表示与父母沟通不畅或者沟通效率不高,希望和父母可以像朋友一样。“我觉得在和谐的家庭里,父母和孩子始终是朋友关系。”王静思说,家庭里的压迫感,会让孩子产生叛逆心。因此父母和子女之间要相互尊重,倾听彼此的意见,不能以暴制暴。
随着时代的快速发展,父母和子女之间的观念差异越来越大,有时会因为缺乏沟通或者沟通方式不当,导致矛盾发生。面对矛盾,父母和子女都应学会理性沟通,这样才能拉近彼此之间的距离。
(来源:人民网-人民日报海外版,2018/2/15)
词汇链1:父母-父母-父母-父母-父母-父母-父母-父母-父母-父母-父母-父母-父母-父母-彼此-父母-父母-家庭-父母-彼此-父母-父母-彼此
词汇链2:聊天-联系-联系-联系-聊-沟通-沟通-沟通-沟通
词汇链3:留学-留学-距离-留学-留学-距离-距离-距离
文本中的这三条词汇链中的同指以及指代关系可以使我们判断出篇章要表达的主题是关于父母和留学孩子之间的距离导致的关系变化。通过词汇链跨越的句子范围,可以判断父母与留学在外的孩子和距离这些概念或话题的持续情况。利用这样的词汇链,可以获得文本的关键词集合。
Morris和Hirst(1991)首先利用词汇链生成自动文摘。他们提出篇章主题可以由篇章中的超强链体现。在词汇链的构建过程中,也是篇章主题的形成过程。而对于一篇文章来讲,最能体现其核心观点的就是篇章文摘。以此可以把词汇链作为篇章文摘和全文之间的桥梁,以它作为文摘提取的路径。词汇链的构建过程如下:首先,是对于候选词的选取,形成候选词集合;其次,在集合中选择特定候选词,以词汇链中词汇的关联性为原则,创建特定候选词的词汇链;最后,经过对候选词集合中的词汇语义筛选,与特定候选词语义相关的候选词纳入特定候选词链中,此时词汇链更新。否则需要另外建构新的词汇链,再继续如上的操作步骤。我们再看一例:
(1)社交的吃饭种类虽然复杂,(2)性质极其简单。(3)把饭给自己有饭的人吃,(4)那是请饭;(5)自己有饭可吃而去吃人家的饭,(6)那是赏面子。(7)交际的微妙不外乎此。(8)反过来说,(9)把饭给没饭吃的人吃,(10)那是施食,(11)赏面子就一变而成丢脸。(12)这便是慈善救济,(13)算不上交际了。
(钱钟书《吃饭》)
以上文本中,“饭”出现了8次,“赏面子”出现了2次,“交际”出现了2次;此外,还有与“赏面子”相关的“丢脸”,与“交际”相关的“社交”以及与“复杂”相关的“简单”、与“施食”相关的“救济”等。以上这些反复出现,或者通过词语间的近义关系出现的词汇,都是通过词汇的衔接性表现出来的。语篇的话题也是通过同义词的出现频率得以概括。
综上,词汇链的优势很显然。文本的多条词汇链便于观察篇章的结构,尤其由名词构成的词汇链更便于计算机识别与计算,计算机自动生成文章摘要是其最主要的应用。同时词汇链也存在劣势,由于在其生成的过程中,词汇链只要求意义相关的词存在于同一语境中,如果从句子的粒度考虑,在词汇链生成摘要的过程中会产生问题,因为句子是组成篇章的单位,那么在生成摘要时,不可避免地会将过于冗长的句子选中,同时,这样的句子又会含有生成词汇链过程中带来的无效噪音成分。因此,还需要额外分析原始文本,从中长句中选取核心成分解析句子,以便重新生成摘要,这样无疑会加大了耗费成本。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。