在自然语言处理中,无论是聚合单元还是聚合单元间关系的抽取,都需要先将平文本转化为词条,这些词条可能被用于关键词进行主题标引,因而词法分析的准确与否对整个分析效果有着重要影响。
(1)分词
数据处理的第一步是分词,现在有很多已经成型的分词算法,以及成熟的中文分词技术。因此在实现上对分词这一块的内容将选用已经成型的分词引擎实现。目前比较好用的有中科院研究的基于HMM的分词库的ICTCLAS(现称为NLPIR)、基于文本匹配的ikanalyzer、哈工大研究的LTP语言技术平台。经过测试,中科院的NLPIR分词效果较为优秀,分词效果较好,可以添加用户词库,在离线时也可以使用比较符合系统需求,因此采用NLPIR分词引擎进行分词。
(2)停用词
中文文本含有某些标点符号、语气词,以及一些没有实际意义但使用频率较高单汉字,这些字或词对表达文本的主题没有任何的帮助。分词组件提供了默认的中英文停用词表,用户可以自行增加或删除停用词。
(3)词性标注
词性指作为划分词类依据的词的特点。本书采用的是NLPIR所提供词性标注组件。它提供了基于隐马尔可夫模型(HMM)词性标注接口供选择。经测试发现运用该组件进行词性标注拥有较高准确率。
(4)命名实体识别
命名实体识别任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。NLPIR提供一个基于隐马尔可夫模型(HMM)和自动规则提取相结合的命名实体识别组件。该组件较全面的覆盖了中文命名实体识别的类别,包括人名、地名、机构名、专有名词、时间、日期和数量短语共七类。考虑网络舆情中用词的复杂性,本书在分析过程不断对人名词库、地名词库、机构词库、专有名词库等进行了人工干预,以增强其识别的准确率。
(5)网络用语(www.daowen.com)
黄晓斌等人从词汇的结构组成与用语含义内在联系这个角度出发,将网络用语分为如下主要类型:符号图形类;谐音类;缩略词类;旧词新义类;引申类;新词类;数字代码类[1]。除了这些类型外,笔者认为还有一类,即故意混淆类。这类用语主要是指发言者发表较为敏感的字词是为了躲避监测而故意添加、替换混淆字符或使用拼音代替。为了改善由于网络用语导致对舆情信息标引、挖掘的准确率,笔者构建了一个网络用语映射表,把舆情信息在分词之前进行一次处理,将网络用语映射到传统用语,如表7-6所示。
表7-6 传统用语与网络用语映射表
例如:
利用NLPIR分词系统可以将一个完整的句子切分为一个个词语,如“党的十八大以来,中央已经完成了八轮巡视,实现了对于地方和中管央企的全覆盖,查处了一批‘大老虎’,整治了一批群众反映强烈的腐败问题,彰显了中央持续保持遏制腐败高压态势的决心和信心,群众无不拍手称快,党心民心贴得更紧、社会风气为之一振。”
在分词系统中分出来的结果则是“党/n的/ude1十/m八大/nz以来/f,/wd中央/n已经/d完成/v了/ule八/m轮/qv巡视/vn,/wd实现/v了/ule对于/p地方/n和/cc中/f管/v央企/nr的/ude1全/a覆盖/vn,/wd查处/v了/ule一/m批/q“/wyz大/a老虎/n”/wyy,/wd整治/v了/ule一/m批/q群众/n反映/v强烈/a的/ude1腐败/an问题/n,/wd彰/ag显/v了/ule中央/n持续/vd保持/v遏制/v腐败/an高压/n态势/n的/ude1决心/n和/cc信心/n,/wd群众/n无不/d拍手称快/vl,/wd党心/n民心/n贴/v得/ude3更/d紧/a、/wn社会/n风气/n为之一振/vl。/wj”。
切分了之后对切分的文本进行分析,首先筛选掉其中不含有意义的词,遗留下来的内容如下“党/n十/m八大/nz以来/f中央/n完成/v巡视/vn实现/v地方/n中/f管/v央企/nr全/a覆盖/vn查处/v大/a老虎/n整治/v群众/n反映/v强烈/a腐败/an问题/n中央/n持续/vd保持/v遏制/v腐败/an高压/n态势/n决心/n信心/n群众/n拍手称快/vl党心/n民心/n社会/n风气/n为之一振/vl”其中含有的词主要包括名词、动词、形容词。
本句中的名词有“党中央、地方、央企、老虎、群众、问题、中央、高压态势、决心、信心、群众、党心、民心、社会风气”有些名词是和这条信息中想要表述的主体是不相符的,如“老虎”,这个词虽然在句中代指贪官,但是在单单提取出来的这个词和句子的含义是不相符的。为了减少这些“噪音”的存在,利用这些噪音的偶发性,可以对之前采集的全部文本进行分词,然后对全部的分词结果进行汇总,统计所有的名词的出现次数,取在统计结果当中出现的次数最多的前20%的名词作为实体,并放入实体库当中。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。