多源异构信息的语言随意性,给意见和主题的抽取带来较大困难,本书将探索一种基于句法分析和词汇链分群主题抽取方案。思路是先通过分析人民网舆情案例库中案例,人工归纳并给每一类型的舆情案例做标注,使用一些主题相关的词语构建多条词汇链对该类型的案例进行描述,然后利用依存句法分析筛选出有可能含有主题词的修辞结构,接着利用抽取出的候选主题词与词汇链中的词语进行相似度计算,当相似度超过一定阈值,把该候选词抽取出来,并作为主题词。具体抽取流程:
1)构建案例库分类体系,本书引入人民网的案例分类体系,将舆情分为9个大类,每个大类若干小类,尽可能穷举所有的案例小类,用C表示类别集合,Ci表示集合C中的元素。这个分类体系是需要不断完善,由于时间限制,本书只选取一个大类,进行详细小类分类。
2)为每个小类做标注,通过案例分析使用一些主题相关的词语构建多条词汇链对该类型的案例进行描述。用L表示词汇链,K表示词汇链中的主题词,则词汇链可以表示为L={K1,K2,…,Kn},而具体的舆情小类可以用多个主题词汇链进行表示,即Ci={L1,L2,…,Ln}。
3)对帖子线索文本进行句子分割后,抽取SBV(主谓关系)、VOB(动宾关系)、ATT(定中关系)这三种可能包含主题词的修辞结构,本书只抽取出这三个修辞关系中的名词性词语作为该句的主题词候选词,用Kcj表示。
4)将帖子线索通过文本分类分到分类体系的具体小类Ci中。(www.daowen.com)
5)如果候选主题词Kcj同时也出现在帖子主题标引集合I中,直接将该候选主题词Kcj作为该句的主题词。
6)如果候选主题词Kcj未出现在帖子主题标引集合I中,将候选主题词Kcj与帖子线索对应的小类Ci主题词汇链中主题词进行相似度计算,当候选主题词与词汇链中某个主题词相似度超过一定阈值时,则将该候选主题词作为意见句的主题词,并标注上该主题词与哪个主题词汇链关联。
7)如果候选主题词与所有的主题词汇链中主题词的相似度都小于阈值,将不作为该句主题词,系统自动将其加到该舆情分类的备选主题词中,通过人工修正方式可以将其加到分类的主题词汇链中。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。