网络舆情监测与分析技术大致可以分为两大类:基于统计规则的模式、基于文本挖掘的主题监测[41]。
2.2.2.1 网络舆情模式识别研究
基于模式识别的网络舆情监测具有一定的有效性。谢海光、陈中润以中国某大学校园网论坛的热点话题数据,对其关键参数如某段时间间隔内用户所关注信息点记录,构建了互联网内容与舆情的热点(热度)、重点(重度)、焦点(焦度)、敏点(敏度)、频点(频度)、拐点(拐度)、难点(难度)、疑点(疑度)、黏点(黏度)和散点(散度)多个分析模式和判据[42]。李恒训等人以TDT4语料的98245篇报道的汉语语料,以及新浪新闻网、中国新闻网、南方周末、千龙网信息作为补充,将获取的候选主题词多重过滤和加权计算,对语料进行分词并采集百度等网站提供的热门搜索词构造主题词词典,对网页分类并根据权重进行排序,提出了基于主题词的热点话题发现算法[43]。刘勤等收集了79个网络热点舆情数据(包括真实舆情事件41个和伪舆情事件38个),首先构建针对网络舆情真伪的评价指标,基于支持向量机的分类机理,结合网络舆情的评价指标,提出基于支持向量机的网络伪舆情识别模型,采用多项式核函数以及优化之后的径向基核函数产生的分类器,构建网络为舆情识别算法[44]。然而,由于不同的信息源信息产生规律有较大的差异,该方法具有较大的局限性,只能进行小规模的定点监测。
2.2.2.2 基于内容挖掘的网络舆情主题监测技术研究
一般来说,基于内容挖掘的网络舆情主题监测技术包括一系列步骤:信息采集、预处理、文本挖掘核心过程、结果聚合、可视化。
(1)网络舆情信息采集与预处理
任何一种文本挖掘的第一个步骤都是数据获取,即获取用来进行文本挖掘的数据集。目前有两种方法:一是利用网站API,这也是Twitter和微博最受欢迎的服务之一,二是从目标网站中捕获数据[45],这种方法与网络爬虫用法一致。基于API的方法执行起来较为简单,采集的数据有序而且结构一致,但是它依赖于接口提供者,具有一些局限性。流应用程序结构虽然没有明显的下载速率限制,但是在诸如同一时间、同一被连接的IP地址的用户数量以及用户可读数据的比例方面可能受到限制[46]。此外,并非所有网站都能提供可获取的应用程序接口,即使提供,该接口也未必具备所需要的每一种功能,未必能获取所需数据的所有字段。相形之下,基于爬虫的方法难度较大,因为它所获取的数据噪音更大,且结构差异大,优点是受限少[47]。理论上讲,网络舆情采集信息源主要来自动态网页[48]。为了提高网络舆情处理的效率和准确率,系统需要在网络舆情预处理之前判断采集到的页面是否有冗余信息,即信息过滤。判断页面内容与主题的相关性的方法仍然是基于关键词的模型匹配方法[49],信息主题过滤和聚合主要采用布尔模型和向量空间模型建立用户索引,然后进行语义信息匹配度计算[50]。杨梅提出提取文本中的关键词列表,用一定数量的关键词来表示该文本信息[51]。陈桂鸿提出基于Web-harvest的定点信息采集和基于输入法平台的新词收集策略,构建了一个互联网用语扩展词库[52]。郭岩等提出SrcRank算法对网络舆情信息源的重要度进行排名,并构建了一个网络舆情信息源影响力评估体系[53]。龙宇研究系统实现方式,搭建基于Net Visual Studio的系统开发环境,采用目前主流的B/S三层架构开发模式,重点研究业务逻辑层与数据层的交互,实现舆情信息采集系统的主要功能[54]。孙玲芳等开发了一套由舆情信息采集、中文分词、特征选择、向量空间模型及改进的K-means算法等技术模块组成的网络舆情热点事件发现系统[55]。金燕为解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架[56]。Fu等提出聚焦爬虫的概念,即能够搜集关于特定主题的富文本内容[57],并且通过建立起基于情感的网络爬虫框架对基于情感的网络挖掘进行了正式定义[58],促进网络舆情信息的发现。
预处理包含的主要技术有:
断句:将段落切分成句子[59]。中文断句通常可以用句号、感叹号等来实现切分,但是在英文文本中,因为句号不但可以用来标注一个句子结束,也表示缩写和小数[60],因此处理难度较大。
分词:将全部文本串切分成若干词或词组并形成词表。英语、西班牙语、法语等具有空格间隔的语言来说分词难度小,但是汉语、日语、泰语等语种的文本中,词语之间没有空格间隔,分词难度较大[61]。现有的开源汉语分词系统较为有名的有中国科学院计算技术研究所研发的ICTCLAS(又名NLPIR汉语分词系统)、HTTPCWS分词系统、SCWS分词系统、盘古分词、PhpanAlysis无组件分词系统、MMSEG4J分词系统、IKAnalyzer中文分词工具包等。
截词:英文文本处理中删除单词词缀的启发式过程,用一种恒定的标准格式或者是“词干”将这些词缀分离[62]。例如,对person,person's,personality和personification进行截词运算就变成person。目前最受欢迎的截词算法是波特截词算法[63]。
词元化:确定一个单词的固定的字典格式的算法过程。它和截词类似,但是它的实现步骤更为严格,需要对每一个单词进行词法分析[64]。
停用词删除:即删除对语言结构来说有用但是对内容没有贡献的单词。例如普遍来说,个、只、是、在、将、的、地、得、但是、可是等属于无用词。无用词的删除还与文本数据的语境相关,尤其是在网络舆情事件中,有些词在某种事件中属于有用词,但是在另外一个事件中却属于需要删除的无用词。
词性标注:标注句子中的每一个单词及其词类,例如形容词、名词、动词、副词和介词[65],它既可以被用来作为诸如依存关系语法分析这类进一步处理的输入[66],也可以被用来作为一种机器学习过程的参数[67]。
以上这些步骤并非全部必需,需要根据具体的文本挖掘程序来做出选择。例如为了减少维度和噪音,一个依赖于词包、基于机器学习的系统可能会用到上述所有方法[68],但是一个无监督方法可能需要建立停用词表来建立依存规则,并用在文本挖掘的核心过程中[69]。数据源和数据采集方法的差异也会带来预处理方法选择的差异。例如通过网络爬虫采集的数据必须进行加工以过滤网页信息、标签信息和图片或广告等非文本信息[70],从微博采集的数据则要注意对话题标签、点赞、博文、评论文本、情感符号、带有重复字符的单词等网络用词的处理。
(2)文本表示与主题发现
文本主题分析旨在确定一个文本的主题结构,即识别所讨论的主题,界定主题的外延,跟踪主题的转换,觉察主题间的关系等,它是很多信息处理领域,比如文本理解、语言建模、信息的检索与抽取、文本分类等应用的基础与核心部分[71]。目前网络舆情主题识别技术,正在从传统的线性文本聚类分析,向更注重内容特征的话题标引统计识别技术发展。王小华等通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,再通过Bisecting K-means算法对主题词串进行聚类分析,从而发现主题[72]。陈友等开发了一套由中文分词、向量空间模型、特征提取、降维处理和文本聚类等模块组成的舆情分析系统,实现互联网舆情信息的主题发现[73]。唐晓波和房小可认为采用适当的方法是影响微博短文本信息检索质量的关键,并针对文本聚类和LDA主题模型的互补特征,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种主题检索模型,实现文本划分以及挖掘类簇中的潜在主题[74]。阮光册通过评论文本的词性标注、语义分析形成语料库,然后利用HowNet对语料库中的词项进行语义相似度计算,完成语义去重、合并,通过LDA主题模型将用户评论的内容映射到主题上,实现对用户评论信息主题的发现[75]。董婧灵等提出基于LDA主题模型的文本聚类和聚簇描述方法,利用LDA模型挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并将此分布作为特征融入传统的向量空间模型来计算相似度进而对文本进行聚类,再利用主题信息对聚类结果进行聚簇描述,实验结果表明该方法能明显提高文本的聚类效果[76]。
LDA模型把文档、主题和词汇构建成三级的贝叶斯模型,将文档主题按照概率分布的形式给出,模型认为每篇文档的每个词都可以通过以一定概率从文档抽取主题,再以一定概率从主题抽取词汇所得。它假设文档-主题概率θd(d为文档编号)服从超参数为α的狄利克雷(Dirichlet)分布,主题-词汇概率βk(k为主题个数)服从超参数为η的狄利克雷分布,具体的生成过程分为四步:
第一步,对每个主题,将主题θd从超参数为α的狄利克雷分布中抽取出来。
第二步,在Step1中得到的主题分布θd进行采样得到主题Zd。
第三步,将主题-词汇分布βk从超参数为η的狄利克雷分布中抽取出来。
第四步,将词语W从主题-词汇分布β中选择出来。
不断迭代此过程,直至所有的主题收敛,这时候模型中的隐含变量θd和βk会在抽样更新过程中达到收敛。模型构建过程示意图如图2-3所示。
图2-3 LDA主题模型生成原理[77]
图中参数含义解释:D代表语料库文档的集合,K是所有主题的集合,Nd表示第d篇文档的词汇总数。Wd,n代表第d篇文档中的第n个词汇,Zd,n则表示文档d第n个词汇的主题。θd和βk分别表示第d个文档下的主题分布和第k个主题下词的分布[78]。
通过距离计算进行类别文本模型主要有Kmeans、DBSCAN、层次聚类等。这些算法在主题分类过程中采用特定的距离衡量方法实现类别归属划分,常见的距离衡量方法有欧氏距离、曼哈顿距离、切比雪夫距离、汉明距离和马氏距离等。DBSCAN基于密度可达概念依据对文本向量计算距离后进行聚类,在聚类过程中无需指定类别个数,但需要指定邻域的距离阈值和邻域的样本数阈值。层次聚类根据文本向量距离由近到远,分层逐步聚集相同的类别。Kmeans是一种无监督算法,它根据样本到簇的距离不断进行迭代,动态地调整样本类别归属直至最终收敛,适用于无类别标注的文本聚类。Kmeans算法具有实现简单、收敛速度相对较快、分类效果好等优点,在文本聚类领域得到了非常广泛的应用。(www.daowen.com)
Kmeans即K均值算法,是一种基于距离的无监督聚类算法。K均值算法具有简单、迭代速度快、分类效果较好等优点,被广泛用于各种数值型和文本型的数据挖掘中。K均值算法以簇数量k为输入参数,把n(n≥k)个对象的集合依次划分在k个簇中,使得簇中的对象距离尽可能小,从而达到对相似度高的对象聚类划分[79]。K均值采用启发式方式生成,算法的生成过程如下:
Step 1:选定k个簇,随机在样本中生成k个点为簇的质心。
Step 2:计算每个样本到每个簇质心的距离,把每个样本归属到距离最近的簇中,距离计算方式常用为欧氏距离。
Step 3:以样本数据之间的平均距离为标准重新计算簇的质心,得到新的k个簇的质心。
Step 4:重复Step 2到Step 3这两个步骤,直到模型目标函数收敛,样本归属不再发生变化。
K均值算法的优化目标是所有样本到所属簇质心的总和,优化的目标函数J如下所示:
其中rnk是表示数据点是否在簇k中,取值为1和0;Ck为第k个簇的质心;Xn代表第n个样本数据[80]。
(3)文本挖掘和观点分析
网络舆情应对决策过程中,无论是个人还是组织层面,信息文本都起着基础作用,因为它们深刻地影响着人们的态度和利益[81],这是直接驱动人们利用现有力量去实现自动监测和理解文本的动力,例如,文本挖掘技术推动电子商务行业免费获得客户及客户对产品的评价[82],让企业能够预估到他们的股票交易量和财政收益[83],推动政府和其他组织机构在不付费进行调查的情况下对公众和当前状况有更深的了解,促使改进公共政策环境中的议程设置[84]。而这些信息在互联网用户自生成内容之前,都需要通过开展大规模用户调查才能获得。因此,网络舆情的研究中,最热门的一个研究领域就是自然语言处理中的文本挖掘。迄今为止,计算机科学界已经出版的关于该领域的论文超过了7000篇[85]。
从分析层级看,文本挖掘的分析层级经历了好几个阶段,首先是基于文档层面,目的是发现整个文档的普遍极性。随后人们对分析层级的兴趣转移到实体和方面层面,分析粒度越细所产生的结果则越容易实现聚合,例如基于方面的文本挖掘过程能够用于计算一个给定句子的情感极性从而产生一个句子层级的分析结果。
文档层级:将一个观点文档类分成积极的或者消极的。这一分析层级的适用性常常受到限制,而且它通常属于综合分析的文本内容[86]。Pang和Lee使用贝叶斯朴素算法、最大熵算法和支持向量机这三种不同的机器学习方法去预测电影评论的极性。他们随后还探讨影评情感极性与用户对电影评分之间的关系,而不仅仅是将影评情感极性类分为积极等级或者消极等级[87]。
句子层级:这一层级与文档层级类似,因为一个句子可以视为一个短小的文档。但是,句子层级首先需要实现断句处理,也面临着和分词相似的困难即难以对没有间隔符分隔的语言进行切分。Riloff和Wiebe使用诱导法对未知数据进行标注,发现抽取模型,实现主观句抽取[88]。Yu和Hatzivassiloglou通过使用朴素贝叶斯分类器以及一个包含单词、双字母组、三字母组、词性标签和极性的特征集,实现更高效的信息聚类以及更高的精确度(达到80%~90%)[89]。周杰依据网络舆情话题评论在形式上的一些共性,在情感词典和观点主题识别基础上,对网络舆情话题整体的情感倾向性进行识别,首先利用句法分析计算情感词在上下文环境中的倾向值,然后对评论中的语句进行语义模式匹配,实现部分结构简单并能反映评论者观点的语句的情感倾向性识别,最后通过聚类算法对具有相似解释型语言评论的倾向值进行修正并判断话题的情感倾向性[90]。
实体和方面层级:这一层级代表了文本挖掘的最细粒度的层级,其任务不仅是发现文本的极性还要发现它的目标(实体,方面,或者两者都需要)。当被测试的文本包含一个实体和一个方面时,文档层级和句子层级的分析都显得卓有成效。但是如果提供更多的实体和方面,它们则显得软弱无力[91]。因此,基于实体或方面的文本挖掘试图通过探测文本中每一个涉及的实体或方面,并将这些实体或方面与相应的文本相结合来解决这一问题。施寒潇在现有情感词极性强度量化算法基础上,针对不同类型的情感词设计不同的计算规则和方法,联合评价对象属性及其情感表达元素进行情感表达对的识别,再基于半监督学习的属性分类进行情感极性的计算[92]。Hu和Liu寻找那些经常被用户评论的产品特征(方面),然后确定包含这些特征的句子的极性,最后对结果进行总结[93]。执行基于方面的文本挖掘任务时,其过程通常是首先确定产品特征,其次辨识有关这些特征的文本,然后评估它们的极性,最后基于它们的特性进行等级排列[94]。Marrese-Taylor等将实体表达和方面表达合并到分析过程中进而拓展文本的定义,按照方面辨识、情感预测和总结发展的步骤,将方面层级的文本挖掘应用于旅游领域,从TripAdvisor上的用户评论中获取有价值的信息[95]。他们还进一步研究将其整合到一个模块化软件中[96],增加了结果可视化模块。Quan等人分别从篇章、段落和词汇三个级别对博客文本进行细粒度标记的规范,并将情感倾向值表示的强度分为8个层次[97]。杨超、冯时采用中科院计算技术研究所开发的汉语词法分析系统,针对网络上的新兴词语做了网络词汇词典,将数据人工分析结果与网络舆情倾向性分析系统分析结果对比[98]。
从文本挖掘核心方法看,目前用于文本挖掘核心过程的方法可以归纳为三种:第一种是无监督、基于词典的方法,需要依靠语法规则、语义规则和诱导法来实现。第二种方法是受监督的机器学习法,即从之前标注数据中学习潜在信息,允许它们去类分新的、未被标注的数据。这两种方法中许多研究被联合使用,且取得了较好的效果[99]。第三种方法是基于概念的方法,即利用本体解决文本挖掘中的问题。
不受监督的基于词典的方法,也被称作基于语义的方法,首先是利用词典标记每一个单词和词组相对应的情感极性,建立情感极性词典,再整合情感分析与情感变化分析结果,最后通过理解复杂的从句如何影响极性来处理转折关系的从句,在情感极性得分中反映出转折从句对极性的影响[100]。薛伟采用基于余弦相似度分析的CSP算法来挖掘舆情信息[101]。Miller使用WordNet开发了一个文本单词表,通过确定常用词的位置来预测文本句子的位置[102]。Turney首先遵循特定的语法规则提取二元组,然后利用PMI评估这些词的极性,最后计算所抽取的每一个二元组的极性进而评估一篇评论的极性[103]。
受监督的机器学习方法,也称为面向情感分类的基于机器学习的方法,从示例数据中类分新的、未标记的数据[104]。其步骤通常包括:抽取特征来表示将要被进行分析的目标,将这些特征(例如词条频率、POS标签、情感词、文本规则、句法依存等)作为算法输入。在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,在建立预测模型时,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断调整预测模型,直到模型预测结果达到一个预期的准确率,目前常见算法有逻辑回归和反向传递神经网络[105]。Pak和Paroubek利用Twitter的快乐和悲伤情感符号建立起跟踪训练文本,分别测试了朴素贝叶斯分类器、CRM和SVM,发现朴素贝叶斯分类法的应用效果最好[106]。
不受监督的方法的好处是它不需要通过数量庞大的数据来获取训练算法,但是,获取或者建立一个情感极性词典仍然是必不可少的。相对于受监督的方法,不受监督的方法对领域依赖也更小。的确,在一个领域通过训练所得的分类器应用于另一个领域时往往效果不佳[107]。
基于概念的方法,相对而言,这类方法是新兴的并且是利用本体实现对文本挖掘任务的支持。本体是一种描述术语及术语间关系的概念模型,是利用一种人类和计算机都能理解的语言实现对某一领域知识的概念化,通常被描述成图表并且通常被映射到由关系所连接的节点。
Zhou和Chaovalit把本体整合到一个电影影评领域的文本挖掘系统中,综合采用监督与无监督方法,抽取出电影评论文本中包含的概念后实现基于概念的情感极性分类[108]。Cambria等提出并构建了一个基于通识推理和领域专用本体的文本挖掘的语义源[109]。后续研究还对这个语义源进行了完善,增加了将其与WordNet-Affect整合所得的情感信息,另一个语义源中也增加了诸如愤怒、厌恶、开心和惊喜这一类的情感标签[110]。Miao等提出了一个类分文本的新方法,将词汇知识、句法知识和本体结合[111]。Grassi等人描述了建立“人类情感本体”的步骤,其中包括人类情感这一领域,同时也揭示了这一语义源是如何运用于在线社交媒体发布的数据所相关的情感信息上的[112]。Peace使用本体中的概念关系表示家庭健康护理知识,构建知识系统来促进临床实践的自动化检索[113]。王兰成和徐震在研究文本倾向性识别方法的基础上,分别实现基于文本分类、语义规则模式和基于情感词的倾向性分析算法,采用构建情感本体,并基于HowNet与主题领域语料的情感概念选择方法,两者结合提高情感本体中的概念全面性和领域针对性;利用情感本体抽取特征词并判断其情感倾向度,结合句法规则和程度副词影响,用特征情感倾向度作为特征权重,采用机器学习方法对主题网络舆情Web文本进行倾向性分析;这种分析结果的准确率和召回率都高,但是普遍性和稳定性值得进一步研究[114]。陈晓美通过构建基于本体的观点知识库和主题聚类,将基于观点词的一般挖掘与基于主题的深度挖掘相融合,通过领域知识实现互补,构建了观点—领域知识—主题多库融合的网络评论观点知识发现模式[115]。该模式对于本书构建网络舆情事件本体具有启发作用。
从研究素材上看,国外的意见挖掘始于商业管理领域的电子商务网站产品用户评论研究,从技术角度看,研究集中在情感分析、意见抽取、算法、文本挖掘、自然语言处理、机器学习、数据挖掘、特征抽取、情感词库、建模、框架等方面,从研究对象看,随着社交软件技术的发展,从电子商务网站逐渐转向博客、社会网络、推特等。中国大陆和香港地区的意见挖掘则始于社会管理领域的新闻及网民评论研究,从技术角度看,研究同样集中在文本挖掘和自然语言处理的核心过程上,从研究对象看,随着社交软件技术的发展,从新闻、论坛逐渐转向微博、微信等自媒体。
(4)网络舆情知识元应用
20世纪70年代末,美国情报学家斯拉麦卡教授提出知识的控制单位将从文献深化到文献中的数据、公式、事实、结论等最小的独立的“数据元”,即“知识元”,知识的控制单元从文献表层深入到文献内容[116]。80年代,英国情报学家布鲁克斯也指出:“图书与情报工作者利用分类法和索引法对科技文献的处理是文献组织,而不是真正意义上的知识组织”,他认为知识组织应是对科技文献中所含的内容的分析,像地图一样展示知识之间的有机结构[117]。20世纪90年代,马费成提出关键词和主题词是最便捷的语法层次的知识单元计量单位,虽然仍不能揭示文献中知识内容的逻辑联系,但是在难以准确抽取和识别知识单元的前提下,利用关键词和主题词表征知识单元,是构建知识网络的首选[118]。
知识元在逻辑上是完整的,众多知识元通过一定的语义连接在一起,可以让知识价值增值,甚至催生新知识。通过知识元的语义连接,发掘知识元之间的相关关系,是知识元服务的重要手段和目的,以此来揭示知识元之间的关联,创造新知识。
知识元在应急管理领域的应用始于2011年,对应急文档知识进行结构化建模,实现基于应急文档知识单元的快速检索。在细粒度网络舆情分析方面,大连理工大学以国家自然科学基金重大项目“非常规突发事件演化分析和应对决策的支持模型集成原理与方法”为依托,以“非常规突发事件领域”为研究对象,以“情景-应对”模式理论为基础,在舆情信息分析中首次引入“知识元”理论,从“情景-应对”,舆情知识元描述、组织、属性、关联等维度,开展了基于知识元的应急案例表示及检索、应急决策知识表示、情景建模、突发事件模型构建、突发事件风险分析等问题的深入研究。
王飞跃认为,“情景-应对”是意识转变的过程,可以部分解决可知与不可知、预测与不可预测、仿真与不可仿真的矛盾,其过程比结果重要,并且从有限的资源和实时决策两个角度对“情景-应对”与“预测-应对”进行了区分[119]。李建伟指出,非常规突发事件具有情景依赖性,构建“情景-应对”模式已广泛得到认可,并且在情景模型的基础上研究情景库中情景推理的一般过程、情景在情景库中的表达规则以及情景库的维护内容等,对突发事件情景内容的获取方法及具体的情景入库进行了深入分析[120]。郭艳敏对非常规突发事件的情景构成要素、要素属性以及情景中客观事件对象间的关系等进行分析,构建了知识元情景概念模型和形式化表示,提出情景生成方法并进行验证[121]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。