网民意见倾向分析大多只能从整体上反映网民对某一舆情事件的整体情感倾向是消极、积极还是中性,对于舆情应对或倾听民众声音来说,除了网民情感倾向以外,还需要知道网民的观点分布,从而帮助其实现有的放矢地回应舆情关切。
对于网络舆情应对决策者来说,首先需要知道的是在网络舆情信息中“与我相关”的舆情信息有哪些,其次是这些舆情信息分别代表了什么样的观点诉求。解决第一个问题的根本在于对网络舆情信息中实体的抽取,包括人物、人群、机构、行政区划、事物(话题)等实体。解决第二个问题的根本在于实体属性的抽取,包括与实体相关的行为、状态、情感等,以及实体间的关系。实体属性的抽取是描述网络舆情事件“情景”的前提,也是进行细粒度、多维度聚合的基础。网民的思想情感、立场观点以及价值利益诉求大多是通过书面文本进行承载的,需要采集网民所发布的内容以及进行文本分析。而且,即使有100个网民的观点、情感、诉求均相同,但其表达的方式可能各不相同,因此区分开不同的观点以及将相同观点的内容进行格式化和规范化显得十分重要。本书首先建立的基于本体的网络舆情挖掘模型见图7-1。
图7-1 基于本体的网络舆情信息挖掘模型(www.daowen.com)
面向应对决策的网络舆情信息聚合系统本体可以分成三层:核心层——舆论观点与情感,扩展层——涉事主体(实体,含人物、机构、地点),支撑层——多源异构舆情数据文档与应对决策所需的文档。分层结构设置依据为:①分层结构提供简明的逻辑模型,使核心、扩展和支撑层的实体和关系清晰有序;②不同层次存储的数据结构复杂度和精确度不同,例如支撑层的多源异构舆情数据包含自动获取的大量多来源舆情信息与决策所需的其他信息,而核心层与扩展层则包含自动提取但经过人工控制的半自动方式提炼出的结构和内容(人名词库、机构词库等),便于存储和扩充;③分层结构允许系统根据聚合准确性、针对性和全面性的要求,提供个性化的信息分析结果。
基于本体的挖掘结果存储作为分析的主要素材,是后期进行各项分析处理的关键步骤,是前述信息聚合概念模型的层级1的主要任务,完成这一层的相关处理之后,就可以构建起用户数据、资源数据和主题数据之间的一维关联、二维关联和三维关联规则,形成相应的聚合网络。
总体来看,基于本体的网络舆情信息挖掘需要将文本信息挖掘并提取出文本来源信息、人物实体信息、机构实体信息、地点实体信息、时间实体信息、标签信息、主题信息,赋予本体各个类及其属性以具体值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。