理论教育 基于统计的自然语言处理方法优化策略

基于统计的自然语言处理方法优化策略

时间:2023-06-01 理论教育 版权反馈
【摘要】:基于统计自然语言处理的方法将特征词限定在名词或名词短语的范围内,使用词频、关联规则等统计方法提取高频特征词,或者采用条件随机场和隐马尔科夫模型等概率统计模型,以监督学习或者半监督学习的方式对产品评论进行序列标注,以此识别特征词。基于监督学习的方法涉及大量的人工干预,导致领域可移植性不强。基于半监督学习的方法需要人工选择候选特征词,其领域可移植性仍然有待提高。

基于统计的自然语言处理方法优化策略

基于统计自然语言处理的方法将特征词限定在名词或名词短语的范围内,使用词频、关联规则等统计方法提取高频特征词,或者采用条件随机场(Conditional Random Fields,CRFs)和隐马尔科夫模型(Hidden Markov Mode,HMM)等概率统计模型,以监督学习或者半监督学习的方式对产品评论进行序列标注,以此识别特征词。

基于词频的算法先将评论中出现的高频名词和名词性短语当作候选特征词,再利用一些启发式规则消除噪声,以此识别特征词。

Hu和Liu[6]根据特征词在评论中出现的高频率性,首先使用关联规则挖掘评论中的高频名词和高频名词短语作为候选特征词,然后使用名词剪枝算法消除噪声,最终生成特征词集合。

Blair-Goldensohn等[8]提出了一个针对餐馆和酒店的评论挖掘系统。该系统设计了一个基于字符串的特征词动态抽取器,并且用于抽取评论中出现的高频名词和名词短语。

Gamon等人[9]提出了一种半监督的机器学习方法,以句子为对象,采用TFIDF(Term Frequency Invert Document Frequency)、最大期望值(Expectation Maximization,EM)和基于熵的聚类算法,将人工定义的产品评论关键词与同句中的相关词语进行聚类,以此识别特征词。

基于词频的方法通常得到较多与产品无关的特征词,遗漏与产品相关的低频特征词。因此,部分学者尝试通过基于概率统计模型的监督学习方法识别特征词。

Zhang等[10]采用基于监督学习的条件随机场(Conditional Random Fields,CRFs)模型,将领域词典的知识以及词语的词性代入模型中进行训练,最后通过机器学习生成特征词。(www.daowen.com)

徐冰等人[11]也使用基于监督学习的条件随机场模型,将浅层语法特征、位置特征、词性特征等统计信息代入模型中,以此识别特征词。实验结果取得了较高的调和评价值。

Liu等人[3]提出一种基于监督学习的标签序列规则(Label Sequential Rule,LSR)识别特征词。该方法首先对语料进行词性标注,并人工选择特征种子词;然后以词性三元组(Tri-grams)为单位,训练和识别特征词出现的规则模式;最后利用训练后的规则去发现新的特征词。

基于监督学习的方法涉及大量的人工干预,导致领域可移植性不强。因此,另有部分学者通过大规模的语料统计,使用基于半监督学习的方法来识别特征词。例如,Xu等[13]在小规模人工标注的电子产品领域语料上,使用条件随机场模型识别特征词,并且优化候选特征词的选择过程,以此提高特征词识别的准确率。Yi等人[14]根据名词短语的组成和位置特点,采用相似性测试(Likelihood Test)的方法来识别特征词。

基于半监督学习的方法需要人工选择候选特征词,其领域可移植性仍然有待提高。因此,还有一些研究者提出基于LDA主题模型的方法,把产品的各个属性当作不同的主题,根据LDA主题模型将语义相近的特征词进行聚类,其结果可以用来解释特征词与特定主题的隶属程度。这类方法大多都假设评论是由一个集合的主题按一定的比例混合而成,而集合中的每个主题则被表示成在词语表上的概率分布。

Titov和McDonald[15-16]认为标准的LDA主题模型并不适合用来提取细粒度的特征词。所以他们提出了一个多粒度潜在狄利克雷分配(Multi-Grain Latent Dirichlet Allocation,MG-LDA)模型,将主题分为全局主题(Global Topic)和局部主题(Local Topic)。该方法不仅可以利用全局主题发现评论中涉及的产品属性,而且还可以利用局部主题发现隶属于特定属性的特征词。

这一主题模型以文档为单位挖掘评论中的潜在主题,提取的结果较为笼统,可能一个主题包含多个产品属性。所以一些学者将主题模型从文档层面细化到句子层面[17-18],假设评论中的每个句子都对应一个产品属性。Brody[17]以及Jo和Oh[18]在句子层面上应用了标准的LDA主题模型,把每一个句子作为一个单独的文档来处理,从评论中抽取更为具体的产品属性,利用词语在产品属性下的聚类识别特征词。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈