在网络舆情意见挖掘领域中,情感极性研究一直是近年来的研究热点,本书第7章基于本体的意见挖掘结果将网络舆情信息中出现的实体以及其属性(文本中与实体一起出现的动词和形容词,动词定义为动作属性,形容词定义为描述属性)同时提取出来,并计算其共现频次,目的是为了对其做进一步的语境分析,实现网络舆情信息中包含的观点内容的聚合。
网络舆情观点聚合主要研究一个给定的网络舆情事件数据集的观点聚合问题,将数据集中包含的用户观点内容全面呈现,而不仅仅局限于目前研究中只挖掘其情感极性。经过聚合单元抽取之后,基于本体中的主题或关键词与其属性之间的共现关系,提取出网民意见中提及的实体以及网民对实体进行的动词或形容词描述,产生观点聚合结果,让应对决策者能在概览网民意见表达的基础上,透视其核心利益诉求。
Urkey和Pantel认为,计算机几乎不能理解人类语言,因而限制了人类向计算机传达指令,计算机也不能向人类解释其交互行为,这又限制了计算机分析和处理文本的能力,语义向量空间模型(VSMs)正在逐步突破这些限制。向量空间模型主要分为三大类:基于术语-文档,基于单词-文本以及基于对模式,每种模式对应使用相应的应用程序[1]。
基于上下文的语义分析方法(contextual semantic approaches)已经在计算机科学中的自然语言处理和信息检索等领域中广泛使用,该方法主要通过词语共现模式来决定词语的语义,例如关联性或语义影响力,也就是通常所说的统计语义学[2],这种方法在网络舆情研究中经常用于情感分析[3]。例如,利用点态互动信息(PMI)计算一个给定单词和一个包含14个积极性与消极性典型词语的平衡集(例:很好,好,差,很差)的统计相关性。如果一个单词与积极性词语的关联程度比它与消极性词语的关联程度要高,那么就将这个单词定义为积极性单词,反之亦然。尽管这种方法不需要大型词典,但是它的识别速度是非常有限的[4]。这主要是因为:一方面,为了检索相关词语的共现频率,基于上下文的语义分析方法使用了网络搜索引擎;更为重要的是,由于其词库中种子词语选择的有限性以及将整个网络作为其语料库,使得这种方法不能针对词语在不同领域的应用而赋予其特定的情感极性[5]。
在具体的文本内容中,词语级的情感挖掘面临的问题通常是其词语极性难以界定,往往是隐含地传递出其情感极性。概念化的语义分析方法使用外部的语义知识库(例如本体和语义网)以及自然语言处理技术来捕捉词语的概念化表述,Saif等人提出将一般的概念化语义(例如“总统”“公司”)合并到受监督的分类器中,进而提高辨别情感极性的准确性[6]。
SenticNet是一个用于情感分析的、基于概念的词典[7]。它包含14 000个收集自Open Mind语料库的细粒度概念以及与之对应的情感定位。事实证明,SenticNet在用于传统文本中的情感探测上是很有价值的(例如:用户评论)[8]。和SentiStrength[9]不同,ScienNet并不是为像Twitter这类网站量身定制的。尽管概念化的语义分析方法已经比纯粹的句法分析要做得更好,但是,这一方法的应用通常局限于其基础知识库,处理规范表达的文本是效果较好,但是在处理具有快速的符号演变和语言变形的网民自生成数据流时,效果较差。
Saif等人提出SentiCircles用于分析推特信息文本的情感倾向,采用情感词所处的上下文,计算共现情感词对在不同语境下的情感倾向以发现它们的语义关系,并把这种方法用于实体级的情感倾向挖掘与文本级的情感倾向极性分析。实验结果证明SentiCircle算法在文本级挖掘中体现出极好的置信度[10]。
本书使用实体属性共现(命名为EntityView)方法来进行语境定义分析,其作用是通过实体的上下文语义来判断与其相关的观点内容。该方法主要是参照情感倾向分析中对某一术语的情感极性的上下文分析方法,即一个术语的情感极性的确定取决于其上下文。
本书的重点不在于分析网络舆情信息中的情感极性,而是往更深入、更具体的观点内容这一层面进行动态分析。我们将上下文定义为一个舆情信息挖掘项目所使用的文本的集合。一个实体e,其上下文语义是通过计算它与其他属性(动词或形容词)的共现模式计算得到的。具体流程见图8-1。
实体索引:这一步是为舆情信息文本分词结果中出现的人物实体、机构实体、地点实体、其他实体等建立索引。
实体-上下文向量生成:将文本中实体E的所有上下文中的实体以向量形式表示出来。给定一个网络舆情信息文本集合T={ti|i=1,2,…,n},实体e的实体-上下文向量是指出现在T中任何一个文本中的、与实体e共现得实体属性的向量c=(c1,c2,c3,…,cn)。实体e的上下文语义是由它与每一个上下文中的属性ci∈c的语义相关性所决定的。本书通过赋予ci的两个主要特征,计算出实体e与每一个上下文属性ci的语义相关性。
上下文特征生成:计算出每一个实体与文本中其他所有属性的相关程度,即计算实体属性相关程度(EFOC)。这一特征表示实体e与其上下文中的术语ci∈c(即:ci对于e的重要程度)之间的相关程度。根据关联规则挖掘的基本原理,网络舆情信息中的实体属性关系挖掘中,实体与其属性之间存在关联关系的支持度为这两个概念同时出现的资源数与两个概念出现的资源总数之比。同时受TF-IDF权值模式的启发,我们对这一特征值的计算如下:
图8-1 网络舆情观点聚合流程图(www.daowen.com)
其中,f(ci,e)表示ci与实体e在文本集合中的共现频率,N表示文本中实体的总数,Nci表示与ci共现的实体的总数。
例如,根据第7章的实体属性抽取结果可以进行以下计算:
1)与“疫苗”实体共现的动作属性“流入”,两者在文本集中的共现次数为34,与“疫苗”实体共现的动作属性对一共383次,实体动作属性对(流入,疫苗)的共现频率为34/383,文本中出现的实体个数共2725个,与“流入”共现的实体的个数为52个,则:实体动作属性相关度EFOC(疫苗,流入)=(34/383)*log(2725/52)=0.153,构成实体属性聚合的三元组表示为<疫苗,流入,0.153>。
2)与“疫苗”实体共现的动作属性“接种”,两者中文本集中的共现次数为92,与“疫苗”实体共现的动作属性对一共383次,实体动作属性对(接种,疫苗)的共现频率为92/383,文本中出现的实体个数共2725个,与“接种”共现的实体的个数为291个,则:实体动作属性相关度EFOC(疫苗,接种)=(92/383)*log(2725/291)=0.233,构成实体属性聚合的三元组表示为<疫苗,接种,0.233>。
3)与“疫苗”实体共现的描述属性“安全”,两者在文本集中的共现次数为30,与“疫苗”实体共现的描述属性对一共142次,实体描述属性对(安全,疫苗)的共现频率为30/142,文本中出现的实体个数共2725个,与“安全”共现的实体的个数为107个,则实体描述属性相关度EFOC(安全,疫苗)=(30/142)*log(2725/107)=0.296,构成实体属性聚合的三元组表示为<疫苗,安全,0.296>。
4)与“孩子”实体共现的描述属性“安全”,两者在文本集中的共现次数为7,与“孩子”实体共现的描述属性对一共27次,实体描述属性对(安全,孩子)的共现频率为7/27,文本中出现的实体个数共2725个,与“安全”共现的实体的个数为107个,则实体描述属性相关度EFOC(安全,孩子)=(7/27)*log(2725/107)=0.365,构成实体属性聚合的三元组表示为<孩子,安全,0.365>。
根据以上四个EFOC值,可以比较“疫苗”实体与“安全”“流入”“接种”等属性之间的相关性大小,以及可以比较“安全”这一属性对实体“疫苗”“孩子”的重要性大小,详见图8-2和图8-3。
EFOC值的计算公式参照的是TFIDF的主要思想:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。也就是说,在属性对识别中,如果实体的某个属性与该实体同时出现的频率高,并且与其他实体较少共现,则认为该属性对该实体具有较强的相关性,可以用来类别区分相应的观点,因此,EFOC值是进行细粒度观点聚合的重要参照值。根据实体属性相关度EFOC的值,可以判断特定属性对某一实体的重要程度,换言之,实体属性相关度的值越大,证明该属性c1对该实体e1越重要,与其他实体e2、e3等相比,用户认为属性c1与实体e1的相关性越大。
图8-2 实体“疫苗”的属性相关度大小比较
图8-3 “安全”属性与“孩子”“疫苗”实体的相关度大小比较
以上分析表明,基于EFOC值的大小,进行实体动作属性以及实体描述属性配对的排序,可以实现对网络舆情信息中包含的网民观点内容的聚合,使网络舆情意见挖掘不再只是停留在共现词频统计,或者情感倾向极性值分析的层面,而是可以以具有相关度值的观点内容形式呈现给决策者,使其快速、准确抓住用户对各类型实体的关注焦点、对特定实体关注的主要方面等,有的放矢地制定应对决策方案。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。