基于语义分析的方法是通过一系列语言分析与预处理工作识别特征词。具体来说,先对语料进行词性标注与句法分析,然后根据预先制定的词序列规则、词性规则以及语法和句法规则等识别特征词。此外,还有一部分研究采用领域本体抽取特征词之间的语义关系,并且基于此进行隐式特征词的识别。
Xu等[19]先根据语法结构和词语修辞规则人工定义了一定数量的模板,再将产品评论句与模板相匹配,识别中心特征词,最后按照语法规则对中心词进行扩展,寻找更多的特征词。然而,这一方法依赖大量的人工工作,通用性不强。
Yi等[20]首先设置三条具有层层递进关系的词性规则模板,分别为BNP(Base Noun Phrase)、d BNP(Definite Base Noun Phrases)、bBNP(Beginning Definite Base Noun Phrases),然后利用该模板从一个给定大小的窗口中提取名词短语作为候选特征词,最后使用信息检索算法来识别特征词。
以上研究方法的准确率较高,但是只考虑了词性的信息,并且使用的规则比较简单,对复杂长句的识别性能较差。因此,一些研究者采用较为复杂的句法依存规则识别特征词。
赵妍妍等人[21-22]提出基于句法分析的方法。首先对评论进行文本预处理,然后进行句法依存规则分析,并且从中抽取高频候选特征词,最后使用剪枝算法过滤掉噪声词,从而识别特征词。
Popescu和Etzioni[7]先采用点互信息(Point Mutual Information,PMI)方法计算候选特征词的置信分数,再将高频的候选词识别为特征词。在此基础上,Etzioni等人[23]设计了KnowIt All系统,先对评论进行文本预处理,然后通过使用一组与领域无关的模板生成候选特征词,最后利用点互信息方法识别特征词。(www.daowen.com)
Thelen和Riloff[24]提出Basilisk算法,首先通过预先定义的语义种子词构建面向特定领域的语义词典,然后根据词语间的语义关系人为制定语义模板,最后基于模板识别特征词。
顾正甲和姚天昉[25]提出基于浅层句法分析的特征词识别算法。在哈尔滨工业大学的语言技术平台(LTP)对语料进行句法分析的基础上,利用SBV极性传递法,并且引入指代消解、ATT链算法和互信息法对语料中的评价对象进行抽取。该方法的复杂度较低,但是对句法分析结果的依赖度较大。
除了以上对显式特征的识别方法外,还有一些学者致力于研究如何识别隐式特征词。他们将隐式特征词的识别当作共指消解问题来研究。也就是说,人们为了避免重复,习惯用代词、称谓和缩略语来指代未出现在文中的实体词。
Yang和Su[26]通过语义分析,利用指示代词和先行词识别隐式特征词。首先利用模板获取指示代词和先行词之间的语义关系,然后在维基百科上自动挖掘模板,并且对模板进行评分,最后利用模板获得待消解的共指实体对的语义特征。
郎君等人[27]利用多种背景语义知识,构建基于二元分类的共指消解框架。他们首先分别在Word Net和维基百科上提取背景知识,然后利用句子中的浅层语义关系、常见文本模式以及待消解词上下文的文本特征,处理共指消解问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。