理论教育 中文口语文本规范化问题研究及方法探究

中文口语文本规范化问题研究及方法探究

时间:2023-06-01 理论教育 版权反馈
【摘要】:对于中文语境下口语化文本中非规范语言现象的研究和处理,是目前中文自然语言处理面临的一个难点。此外,还有部分研究仍然采用调查问卷的方式收集样本数据。

中文口语文本规范化问题研究及方法探究

1.中文产品评论的产品特征与评价观点识别

产品特征是用于描述产品各个属性的词语,如屏幕、外观和价格等。评价观点是表达用户情感的、用于评价特征词的词语。

现有特征词与观点词识别的研究大多依赖于人为构建的外部资源,例如人为定义的候选种子词集、规则库、情感词典以及大量人工标记的语料等。这些方法的人工干预程度较高,领域可移植性不强,特征词与观点词识别的查准率和查全率也不高。

此外,中文产品评论主要具有以下特点:口语化严重,语法不规范,主语缺失,多以逗号断句等[4]。例如以一条手机评论为例:“这款机子很垃圾,又贵又不好用,还经常死机。”其中,“机子”和“垃圾”都是口语化用语,无法从标准词典中获取;此外,评论句中还存在主语缺失的问题,即省略了“贵”、“不好用”和“死机”等评价观点对应的评价对象,分别是“价格”、“使用”和“系统”。

对于中文语境下口语化文本中非规范语言现象的研究和处理,是目前中文自然语言处理面临的一个难点。因此,如何从中文产品评论中有效地提取产品特征与评价观点,尤其是对口语化词语和缺失的主语进行识别,是中文产品评论细粒度情感分析必须解决的一个问题。

2.中文产品评论的产品特征与评价观点配对

已有文献将产品特征与评价观点的组合当作产品评论的基本情感评价单元[22,58],其中特征词是情感评价的对象,观点词是情感的承载者,表现了评论者的情感。因此,匹配特征词与观点词是细粒度情感分析的一项重要任务,起到承上启下的作用,其查准率和查全率对于整个研究至关重要。

根据中文产品评论的特点,不规范的语法可能导致特征词与观点词之间的距离较远,不容易根据邻近原则判断二者的关系。此外,用户在表达情感时还经常省略其评价对象。这些都使得特征词与观点词之间的语义关系模糊,造成二者配对的困难。

现有研究方法大多根据特征词和观点词在语料中出现的位置、共现性或者语法规则等浅层的字面含义,识别二者的搭配关系,未能深入挖掘它们之间的潜在语义关系。同时,针对口语化严重和语法不规范的中文产品评论,特征词与观点词配对的查准率还有待提高。

因此,如何量化特征词与观点词之间的语义关系,进而将二者进行准确的配对是中文产品评论细粒度情感分析中的一个难点。(www.daowen.com)

3.中文产品评论“特征观点对”的情感分析

特征观点对情感分析包括了情感强度计算和情感极性分类两个方面,其中情感强度表示情感的强弱程度,情感极性表示用户的褒贬态度。

在产品评论中,上下文语境对观点词的情感强度和情感极性具有一定的影响。一方面,一些观点词的情感极性会随着评价对象的不同而发生逆转。例如,手机评论中的观点词“大”,在与特征词“容积”搭配时表达正面情感,而在与特征词“杂音”搭配时,则表达负面情感。因此,需要以特征观点对为对象,进行情感分析。另一方面,与观点词邻近的修饰词(如否定词、双重否定词和程度副词等)对观点词的情感也起到一定的作用,其中否定词改变观点词的情感极性,程度副词增强或者减弱观点词的情感强度。

现有相关研究的不足主要是未能考虑上下文语境对观点词情感强度与情感极性的限制与调节作用,以及无法计算与判断产品评论中一些口语化词语和流行新词的情感强度与极性。

因此,如何识别与衡量上下文语境对观点词情感的影响,提高特征观点对情感分析的准确率,是中文产品评论细粒度情感分析面临的又一个问题。

4.建立产品评论对销量影响的计量经济模型

现有相关研究将产品评论作为自变量,建立其对销量影响的计量经济模型。然而,这些方法大多着眼于产品评论的数值信息(如星级评分和评论数量等),或者通过粗粒度情感分析判断产品评论的整体情感极性,却鲜有挖掘产品评论的文本信息,识别与判断用户对产品各个方面的情感。

此外,还有部分研究仍然采用调查问卷的方式收集样本数据。其局限性在于问卷数量有限,问卷的问题设计不一定合理,得到的答案不一定准确,调查对象不一定具有代表性与典型性等,从而影响样本数据的质量。

因此,如何将产品评论中的评论对象及其对应的评价观点,代入产品评论对商家销量影响的计量模型,也是本书的一个难点问题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈