在最基本的层面上,文本挖掘系统输入未经处理的自然语言文本,而输出与文本相关的模型、联系和趋势。在文本挖掘的最初阶段,非结构化自然语言数据被转化成可供进一步分析的结构化数据。在进行分析之前,自然语言处理被用来进行tokenize(删除标点符号)、filter(删除没有实际意义的词)、lemmatize(把动词转换为不定式时态,名词转化成单数形式)或stem(删除单词后缀)文本(Hotho,Nürnberger,Paaß,2005)。
自然语言处理技术(Natural Language Processing,NLP)是用于自动分析及展示人类语言的一种计算技术。其研究目的是通过实施智能技术以理解正常的人类语言(Cambria,White,2014)。自然语言处理技术研究从批处理和手工处理的时代进化到了谷歌和大数据驱动公司时代。尽管语义论的倡导者们坚持面向语法的自然语言处理技术向面向语义的自然语言处理技术方向转变是非常必要且不可避免的,然而大多数的自然语言处理技术研究者仍然沿用面向语法的方法。浅层分析和全文分析都可以用来分析语法结构。浅层分析包括基于记忆的分析或使用统计决策树的概率分析方法(Rajman,Vesely,2004),而全文分析要求持续性或依从性语法。依从性语法使用依从图(Dependency Graph)进行分析,该图的节点用单词表示,连线用节点之间的关系表示(Feldman,Sanger,2007)。
关键词提取因其可达性成为自然语言处理技术中最基本、最常用的分析方法。Penn Treebank(Marcus,Santorini,Marcinkiewizc,1993)是一个由450余万个标注了词性信息(Part-of-speech,POS)的美式单词构成的语料库,该语料库是基于关键词提取建立起来的。同样地,PageRank(Page,Brin,Motwani,Winograd,1999)(谷歌公司著名的排名算法)、LexRank(Gunes,Radev,2004)(一种基于随机图形的方法,用来计算文本单元的相对重要性)和TextRank(Mihalcea,Tarau,2004)(一种基于图形的排序模型,用于文本处理)都是基于自然语言处理的关键词和句子抽取建立起来的。
自20世纪90年代后期以来,统计自然语言处理技术作为面向语法技术的一个版本,一直是自然语言处理技术中的主流技术。这种技术依赖语言模型及最大似然法(Berger,Pietra,1996)、期望最大化法(Nigam,McCallum,Thrun,Mitchell,2000)、条件随机场(Lafferty,McCallum,Pereira,2001)和支持向量机(Joachims,2002)等机器学习算法。通过把机器学习算法应用于大量的注释文本训练语料库,自然语言处理技术不仅可以计算关键词的配价,而且可以说明其他任意关键词的配价、标点和词汇共现的频率。请注意,更为先进的关键词聚类技术如主题模型,我们将在第11章给大家介绍。
统计学的方法缺乏语义学信息,语义学能够给予每个方法有效的预测值。统计学自然语言处理技术在进行大规模文本分析时效果非常好,而对句子或从句等很小的文本单元进行分析时,就显得很困难。我们需要关注基于语义的自然语言处理技术与自然语言文本相关的内在含义(Sebastiani,2002)。基于语义的方法依赖于与自然语言文本相关的隐含指示特征,而不仅仅是在语法层面对文本进行处理,这样可以避免盲目地利用关键词和词的共现次数。语言学的处理方法包括词性标注器、文本组块分析和语义消歧。词性标注器是指按照词语在句子中的作用对词语进行注释(名词、动词、形容词和转有名词等);文本组块分析指把位置相邻的单词(如government shutdown)分为同一组;语义消歧指利用单词的含义而不仅仅是单词本身来深入地表达词义(Feldman,Sanger,2007;Hotho et al.,2005),如用“financial institution”替代“bank”。基于概念的方法能够以一种更微妙的方式检测语义表达,如通过分析“没有明确地表达相关信息,而是将此信息隐式链接到其他概念”的概念。基于语义的自然语言处理方法通常或利用基于外部知识集过程的技术(ontologies)(Suchanek,Kasneci,Weikum,2007),或利用语义知识基础(Cambria,Rajagopal,Olsher,Das,2013)。
这个处理过程结束后,通过聚类、分类、关系抽取和实体抽取技术对文本进行结构化处理,此系统可以把“机器可读的文本表达转变成机器可理解的文本”(Feldman,Sanger,2007)。(www.daowen.com)
文档聚类利用非监督的学习方法,将未标注的文档集划分为有意义的聚类,同一聚类内部的文档之间具有相似性。尽管许多文本聚类方法已经开发了多年(Rajman,Vesely,2004),但是大多数方法仍然是基于向量空间表示的层次的或者是分区的方法(Aggarwal,Zhai,2012;Cutting,Karger,Pederson,1993;Lin,Demner-Fushman,2007;Wang,McKay,Abbass,Barlow,2002)。
文本聚类方法最初被研究人员用于提高信息检索性能(Wang et al.,2002)。然而近年来,该方法被用于最近邻检索(Aggarwal,Zhao,Yu,2012),用于支持交互式文档浏览模式(Cutting et al.,1993)和构造主题层级结构(Ming,Wang,Chua,2010)。在生物医学领域,Lin和Demner-Fushman(2007)引进了一种有趣的文本聚类方法,这种方法将生物医学文献检索的结果自动化地分到不同的分组,促使人们更易理解文献检索的结果。不同于传统的文本聚类方法,语义聚类技术通过单词聚类形式提供了对文本集合的连贯概述(Coherent Summary),而单词聚类则可以提供潜在语料库全部内容的概括(Bekkerman,El-Yaniv,Tishby,Winter,2001)。文本聚类方法的变体,尤其是语句聚类可用于概述文本。
分类技术利用索引词的选择、概率分类器、临近分类器、决策树分类器和监督分类器等方法把文本文档分派到指定类别(Hotho et al.,2005)。文本分类技术为标签假定类别值,已经在数据库、数据挖掘和信息检索领域中被广泛研究。文本分类还应用于意见挖掘、电子邮件分类和新闻过滤等领域。意见挖掘是指从较短的客户评价和意见文本文件中挖掘有价值的信息(Brody,Elhadad,2010;Ding,Liu,Zhang,2009)。电子邮件分类和垃圾邮件过滤(Carvalho,Cohen,2005)是通过自动化的方式确定电子邮件的主题或者确定一封邮件是不是垃圾邮件(Cui,Mondal,Shen,Cong,Tan,2005)。大多数的新闻服务利用新闻过滤或者文本过滤(Du,Safavi-Naini,Susilon,2003)来整理由新闻机构产生的大量的日常报道。现在,许多的门户网站应用自动化的方法编排大量的新闻报道,而手工方法却难以对这些信息进行处理(Hepple et al.,2004;Lang,1995)。
关系抽取利用形态学分析技术和浅层分析技术提取成对的实体(如雇员—雇主,组织—地区)来减少信息的损失。实体提取把预设标签分配给文本实体,这些标签通常是一些有意义的语意属性,如公司名、日期、电话号等(Rajman,Vesely,2004)。近来,科研人员利用文本挖掘提取预先定义的命名实体,并根据引用关系建立实体关系以发现药物之间的关系(Ding et al.,2013;Song,Han,Kim,Ding,Chambers,2013)。
许多的文本挖掘系统为了对文本做进一步的探索性的数据分析,对其结果进行了可视化处理。可视化提供了结果的可分析视图,并且提供了整个文本集的总结概述。文本挖掘结果不但可以和数据分析结果一样用散点图、矩阵等几何图形表示,而且也可以用以像素为导向的方法表示(如递归模式、圆环段等)、以图标为导向的方法表示(如简笔图、形状编码)和层次表示方法(如树图、韦恩图等)(Rajman,Vesely,2004)。自组织映射图常用于文本集的可视化处理,这是由于它可以基于具有高维临近关系的拓扑结构对文档集进行低维聚类。也就是说,文档集按相似性聚类,但也与相似的类映射较近(Hotho et al.,2005)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。