《牛津现代英汉双解字典》中,“聚合”一词与“aggregation”对应,指异类成分组成的集合,或由很多细小单元组成的一个整体[15]。聚合原用于化学研究领域,后来在图书情报学界的信息组织领域开始受到重视,出现了信息聚合、内容聚合、资源聚合等概念。Arguello等学者认为,内容聚合是指特定情境下围绕核心内容和垂直内容进行信息筛选、组织、排序与呈现的任务与方法[16]。曹树金等在比较各种不同概念的基础上,提出信息聚合是“在当前内容搜索系统并未满足用户复杂多样的信息需求的情况下,以情景因素的融入为主要特征,在相应技术和理论基础上发展而来的信息组织与搜索模式的革新”[17]。本书采用了信息聚合的概念,着重分析面向用户决策需求的网络舆情信息组织与检索模式。
早期的网络信息聚合是以RSS技术为代表的、基于网页层面的简单信息聚合,即把不同网址的信息聚合,使多个网址的内容集合在同一网页或系统中。其中以利用RSS阅读器订阅新闻等各类型的信息最为常见。网站信息聚合模式发展的第二阶段是Web API层面的信息聚合,即Mashup,通过API获取相应的信息,例如通过Google maps Api获取地图信息。目前,大部分应用是通过调用Web API来实现信息聚合,互联网上每天都有新的API发布,同时也有新的聚合应用被开发,为用户提供各式各样的聚合信息阅读方式。这两种聚合模式都是数据来源层面的粗粒度信息聚合。
广泛意义上的网络舆情信息聚合包含了网络挖掘、自然语言处理、文本挖掘和信息检索等领域的研究,是在多来源网络信息的基础上实现的文本信息聚合,按照聚合的层面可以划分为:
(1)基于统计规则的模式识别,按照数据来源划分为某一网络平台上的统计分析和基于搜索日志的统计分析[18]
1)某一网络平台上的统计分析,例如,统计网民在某个时间间隔内关注的信息,构建网络舆情热点、重点、焦点、敏点、频点、拐点、难点、疑点、黏点和散点等各种模式的识别规则和判据[19]。这种聚合主要是应用统计原理,归纳出识别异常事件的相关规则和阈值,用作单一网络平台(例如BBS、天涯论坛等)上网络突发异常的监测,是网络舆情早期研究中常用的信息聚合模式。
2)基于搜索日志的统计分析,主要是根据搜索引擎后台的搜索日志,分析网民IP地址、搜索时间、用户的搜索词、点击的搜索结果网址等多种维度的数据进行统计分析[20]。通过统计分析用户的搜索词,可以发现网民关注的热点;对一段时间内与某个社会事件相关的搜索词的词频进行统计,可以描述网民关注点的产生和变化过程;对网民所点击的搜索结果进行分析,可以发现影响网络舆情产生和变化的源头[21]。
(2)根据所聚合内容粒度的大小,分为文档级的聚合、句子级的聚合和词语级的聚合(www.daowen.com)
基于文本内容挖掘的网络舆情信息聚合,起源于数据挖掘和信息检索领域,涉及较多自然语言处理技术相关的研究子领域。根据所聚合内容粒度的大小,可以分为:文档级的聚合、句子级的聚合和词语级的聚合。
1)文档级的聚合,聚合的基本单元是整篇文档,例如在现有网络舆情监测系统中常见的同主题文本聚类、文本情感倾向聚合、根据文本点击率聚合的排行榜等。在同主题文本聚类研究中,判断网页页面内容与主题相关性的常用方法是基于关键词的模型匹配,主要采用布尔模型和向量空间模型建立用户索引进行信息主题过滤和聚合,然后进行语义信息匹配度计算[22]。而影响力传播模型则被用于分析帖子或者用户间的影响传递,以此来发现焦点人物或热点话题[23]。利用TF-IDF和词语影响力因子来选择特征项可以实现基于主题的文本聚类[24]。研究尝试结合文档的特征与其包含的话题信息来构建话题模型[25]。文本情感倾向聚合研究主要通过构建极性词典匹配并计算文本中的相应的语句、词语的情感极性值[26],以及根据语气或表情符号等来计算文本的情感极性值[27],得到某一话题的文本情感极性值,作为舆情聚合的依据。文档级聚合假定每篇文档所包含的意见完全由一个主体发出,而且仅仅指向一个客体(即被评论的对象)[28]。传统的机器学习方法中的朴素贝叶斯分类、最大熵分类或支持向量机分类等分类方法是早期用于实现文档级聚合的主要方法[29],随后一种文档中的极性词线性组合方法被研发出来,实验效果显示其更为直接而简单[30]。人民网舆情监察室将文本情感倾向扩展为共识度模型,从情感极性、正能量指数、理性程度指数、网民对政府的认同度等方面构建指标,计算热门话题的网民共识度值,实现了基于共识度指标的文档级信息聚合,可以实现短时间内的舆情信息监测[31]。
2)句子级的聚合。从网络舆情研究的角度,句子级的聚合是指从文本中分割出意见句来,根据意见句的极性实现聚合。意见句是指能够表达发帖者对舆情事件中某个人物、机构或者事件的侧面意见或看法的句子,或者指包含一个以上主题词和极性词的句子[32]。早期对意见句的情感分析多采用分类聚合的方法来实现[33]。随着词语种子库的不断发展,Liu等人探索了通过聚合一个意见句中的所有词在向量空间中的值来计算句子的极性[34]。汉语文本情感分析研究中,Zhang等人探索文本依存句法分析的句子级情感极性分析,并通过句子极性的聚合来实现文本倾向分析的目的[35]。
3)词语级的聚合,或称为特征级聚合,以词语或特征为单元进行信息聚合。文档级聚合和句子级的聚合所得到的情感倾向仅分别代表了整篇或整句,并没有直接指向某一个实体或实体的某一个方面。词语级聚合通过情感目标对的识别和分类,其情感直接与实体对应,聚合粒度更细,分析结果更有针对性。例如在总统大选中,以“希拉里”为中心实现与之相关的形容词、副词或机构的多维度聚合。这种聚合是以词语级或特征级情感分析为基础的,通常分为三个步骤:识别、分类和聚合。首先从文本或句子中识别出情感目标对,再对其按照预先设计的规则进行分类,目前的研究大部分是以情感极性进行分类,有些则是从观点的角度进行分类,即不是简单的赋予情感极性的正向或负向,而是直接指向其观点。识别和分类完成后,就可以按照用户需求实现特定情境下的信息聚合。在词语级聚合中,常用的方法是话题建模,基于语料库发现热点话题[36]、进行话语分析[37]、结合评论者权重为每个评论单独呈现关于评论对象的评级[38]、根据实体特征聚合用户关于每个特征的意见或评论[39]等。从研究领域分布来看,特征级的聚合主要集中在产品评价分析、金融预测等经济领域。反映社会管理网络舆情分析方面的研究成果,能体现对网民评论观点的聚合的是标签云,即从中文分词结果按照词频大小呈现,每个词是一个标签,词频越大标签越大且位置居中,是社会管理领域网络舆情信息词语级聚合的常见方式。
在词语级聚合方面,稳健性、灵活性和速度是研究或实际应用中密切关注的三大方面。稳健性是指识别情感目标对时系统的稳定性,由于网络舆情信息中很大一部分属于用户自生成内容,用户用语的随意性、非正式说法或语法错误等情况时常出现,还可能常用一些俚语、歇后语、反讽等表达情感的方式,这些对系统的稳健性产生了较大的挑战。灵活性是指系统可以应用于多个领域,词语级聚合直接面向信息的最小单元,而社会管理涉及范围广泛,有些系统在一个领域可以体现出较高的分析准确率,但是在其他领域则可能无法适应。速度问题也是目前研究中较为关注的一个方面,尤其是在处理大规模、不规范数据的时候,识别速度、分类速度和聚合速度都是目前面临的较大挑战。
综上可知,自然语言处理和情报学两大领域最近几年保持了对网络文本挖掘持续高涨的研究热情,中文文本信息处理研究、网络舆情传播规律和分析方法与技术等研究成果为本书提供了一定的理论、方法和技术基础。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。