在本章中,我们选择使用Stanford CoreNLP解析器进行分析,它是经《华尔街日报》测试过的一种统计的、非词典编纂的自然语言解析器(De Marneff,MacCartney,Manning,2006;Klein,Manning,2003a,2003b)。当前版本(Stanford CoreNLP Version 3.3.0)包括一系列的由斯坦福大学自然语言处理技术研究小组设计的处理工具,其目的是把未经处理的英文文本转化成适合于高级文本分析和理解的、完整的文本分析和语言学注释。该软件附带的工具有如下功能:把单词还原成原始形式,按词性分割单词(公司名、人名等),把日期、时间和数值作标准化处理,根据单词和短语的依从性对句子作标记,并指出哪些名词词组指代同一实体(http://nlp.stanford.edu/downloads/corenlp.shtml)。Stanford Core NLP使用注释的方法实现上述目标,具体做法是对数据进行结构化和映射处理,注释器起到注释的作用。表10.1是Stanford Core NLP所支持的注释一览表。
Stanford CoreNLP实际上是由斯坦福大学自然语言处理小组开发的一系列工具。这些工具可供使用者免费下载和使用,并且在表10.1上列出了这些工具的简介。除解析器外,这套工具还包括词性标注器(Toutanova,Klein,Manning,Singer,2003)、命名实体识别器、共指消解系统(Lee et al.,2011)和情感分析工具。词性标注器是指对句子中的每个词都分配一个合适的词性(名词、动词和形容词等),词性的标注使用Penn Treebank标签集的缩写表示(Marcus,Marcinkiewicz,Santorini 1993a,1993b)。命名实体识别器也叫CRF分类器(Finkel,Grenager,Manning,2005),它使用线性链式序列模型识别并标注文本中表示可识别实体的单词(如人、公司名、位置等)。情感分析工具(Socher et al.,2013)是应用深度学习模型先根据结构建立一个句子表示,再基于单词在较长短语中的构成意义计算情感倾向。
整套Stanford CoreNLP程序使用Java编写,注册证书为GNU通用公共许可证。运行环境:Java版本为1.6及以上,建议在64位计算机上运行,至少3GB的内存(依赖于解析文件的大小)。下载地址:http://nlp.stanford.edu/downloads/corenlp.shtml,压缩包大小为215MB。
表10.1 Stanford CoreNLP支持的特征注释器、生成的注释以及描述
续表(www.daowen.com)
续表
注:根据Stanford CoreNLP网站修改,http://nlp.stanford.edu/software/corenlp.shtml。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。