理论教育 资源采集与筛选技巧大揭秘!

资源采集与筛选技巧大揭秘!

时间:2023-10-29 理论教育 版权反馈
【摘要】:面向应对决策的社会管理领域网络舆情信息资源采集是获取语料用与构建本体的第一步。从第4章的分析可知,从决策需求角度看,需要采集的网络资源应该满足以下条件:1)采集的资源是社会管理领域网络舆情事件相关资源。图6-1网络舆情事件本体构建过程2)采集的资源类型既包括网络舆情信息,也包括政府文件信息,以及来自科研领域的专家学者发表的论文或著作信息、研究机构提供的风险或威胁测评报告等。

资源采集与筛选技巧大揭秘!

面向应对决策社会管理领域网络舆情信息资源采集是获取语料用与构建本体的第一步。从第4章的分析可知,从决策需求角度看,需要采集的网络资源应该满足以下条件:

1)采集的资源是社会管理领域网络舆情事件相关资源。本书以疫苗事件舆情为分析对象,因此需要采集包括“疫苗”的网络信息资源。

图6-1 网络舆情事件本体构建过程

2)采集的资源类型既包括网络舆情信息(含新闻及用户评论),也包括政府文件信息,以及来自科研领域的专家学者发表的论文或著作信息、研究机构提供的风险或威胁测评报告等。

3)采集的资源形式应相对规范,也就是采集结果应该得到经过信息聚合框架中层级0数据定义之后的相对结构化的数据。(www.daowen.com)

本书采集社会管理领域典型的网络舆情信息资源作为本体构建的语料来源。采集的网络资源类型和各种类型的内容范围如表6-1所示。

由于数据量较为庞大,质量良莠不齐,需要对采集回来的网络舆情信息资源要进行质量控制,控制原则主要有:①过滤字数少于5的信息。字数较少的文本包含的信息量小,往往只是单纯的诸如“转发”“顶”等评价,对于实体抽取和观点挖掘来说意义不大。②在用户评论中常常出现错别字,过滤出现错别字大于4且总字数小于10的信息。

由于资源采集不是本书研究重点,因此假设构建本体的网络舆情信息资源语料库中的信息已经根据层级0的数据定义完成了预处理和结构化处理,可以直接用于本体的文本分析。

表6-1 网络资源采集类型和内容范围

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈