人类对世界的认识经历了从模糊到精确的过程。所谓模糊性是指事物类属的不清晰,人类无法制定精确的分类标准,对于特定事物隶属类别的判断具有较强的主观性。语言是表现模糊性的重要载体,在日常生活中事物的模糊性都可以通过语言表达出来。也可以说,模糊性是人类自然语言的本质特征,其产生的根源在于语言符号的离散性和客观事物的连续性之间的矛盾。
自然语言的模糊性主要表现在语音、语义和语法三个方面。情感强度的模糊性在本质上就是情感词的语义模糊。例如,在对手机外观的评论中,表达正面情感的观点词“漂亮”和“好看”虽然具有相近的语义与相同的情感极性,但是情感强度却不同。当人们在阅读用户发表的产品评论时,对于评论表达的语义理解不同,所感知到的用户情感也不相同。很难判断到底“漂亮”和“好看”哪一个表达的正面情感更加强烈,更能反映用户对手机外观的肯定态度。
此外,在语料库的标注工作中,不同标注人员的标注结果也很难达成一致。对于这一问题,一般采用统计手段,取最大可能性或者最大概率的结果作为最终标注结果。但是这样的处理方式却容易遗漏情感强度所蕴含的丰富信息。(www.daowen.com)
因此,如何量化情感强度是情感分析领域的一个重要任务,同时也是一个难题。情感强度的取值是连续而非离散的,它是一个区间分布值,并非一个独立的坐标点。现有研究在计算情感强度时,通常将情感强度划分为多个级别,比如高、中、低等三个级别,通过设计隶属度算法判断情感强度属于哪个级别[173-175]。然而,不论是情感强度级别的划分还是隶属度阈值的设定,都是依据常识通过人工定义,使得该类研究方法面临着情感强度的模糊性和人工定义的主观性问题。因此,本书从上下文语境分析的角度出发,设计语义计算的算法,为评论中的评价对象及其对应的评价观点的情感强度赋值,以此量化用户表达的情感。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。