Callon、Courtial、Turner和Bauin(1983)在20世纪80年代后期提出了科学领域分析法,该方法通过共现关键词和标题词条得以实现。随后这些作者(Callon,Courtial,Laville,1991)和20世纪90年代早期的其他研究人员(Van Raan,Tijssen,1993;Zitt,1991;Zitt,Bassecoulard,1994)对该方法进行了扩展。然而,Feldman和Dagan(1995)是将文本挖掘技术作为一种知识发现工具的第一人。他们所提出的框架基于概念层次、由概念实现的文本分类和概念分布的比较,从而在Reuters-22-173文本分类测试集中识别出意外的模型(Feldman,Dagan,1995;Feldman,Klösgen,Ziberstein,1997)。
几乎同一时间,Navel研究人员Ronald Kostoff经过多次研究发现“在叙述性技术文本全文中短语出现的频率与文本的主旨相关”(Kostoff,Toothman,Eberhart,Humenik,2001)。Ronald Kostoff和他的同事申请了一个专利,叫Database Tomography(Kostoff,Miles,Eberhart,1995)。这项专利主要是从文章摘要中挖掘单词,然后应用更多的传统文献计量学方法分析结果,并识别研究领域和议题。随后的十年,Kostoff和其他人把这种分析方法应用于许多领域,如近地空间(Kostoff,Eberhart,Toothman,1998)、化学(Kostoff,Eberhart,Toothman,Pallenbarg,2006)、航天科学(Kostoff,Green,Toothman,Humenik,2000)。
在文献计量学文本挖掘领域应用最广泛的技术主要关注对从标题、摘要和全文中抽取的关键词的共现分析,并且已经扩展到共词、共标题和合著聚类(Janssens,Leta,Glänzel,De Moor,2006)。就这样,许多科研人员把这种方法应用于自然科学(De Looze,Lemarie,1997)、信息检索(Ding,Chowdhury,Foo,1999)以及医学(Onyancha,Ocholla,2005)的研究。其他研究人员利用文本挖掘技术从标题中提取关键词,并结合共词分析技术来识别不同语境、不同领域和不同媒介之间概念的潜在关系和意义(Leydesdorff,Hellsten,2005;Onyancha,Ocholla,2005)。
此外,研究人员还将文本挖掘与引文分析相结合挖掘文献的引用情况,这一过程被称为引文挖掘。Kostoff等人(2001)利用引文挖掘来确定科研人员概况信息。Porter、Kongthon和Lu(2002)提出了一种相似的策略,即通过识别主题关系和研究趋势来提升传统文献综述的效率。最近,科研人员采用描述符和期刊概况分析方法分析了图书馆学及信息科学领域中档案研究的发展趋势(Kim,Lee,2009)和数字图书馆研究(Lee,Kim,2010)。Liu、Zhang、Guo(2012)也利用引文挖掘技术确定不同主题研究领域最重要的出版物。(www.daowen.com)
文本挖掘早已成为专利分析的标准技术。Lent、Agrawal、Srikant(1997)利用大量的专利数据集创建了PatentMiner系统,该系统利用文本挖掘技术识别序列模型并构建检索词,进而对专利趋势进行分析及可视化研究。Bhattacharya、Kretschmer、Meyer(2003)在他们进行的科学文献和专利文献之间联系的研究中利用文本挖掘去识别共词和引文。其他人利用文本挖掘技术识别专利中的模型样板(Lawson,Kemp,Lynch,Chowdhury,1996)、特征(Tseng,Wang,Lin,Lin,Juang,2007)和引用模式(Li,Chambers,Ding,Zhang,Meng,2014)。
Glenisson和他的同事们(Glenisson,Glänzel,Janssens,De Moor,2005;Glenisson,Glänzel,Persson,2005)把全文分析和传统文献计量学分析方法结合起来创造了一种混合的文本分析方法。他们的研究证实了这种混合方法在研究评价中非常有效。最近,Song和Kim(2013)利用全文挖掘技术建立了PubMed论文的引文数据库来研究生物信息学领域的知识结构。Liu(2012)等人在研究中使用引文全文挖掘技术来识别某一主题中最具影响力的文献。
使用文本挖掘技术的文献计量学从共词分析研究转移到单词及文档的聚类分析研究。Kostoff等人(2007)利用文档聚类方法识别墨西哥科技文献的技术结构。Janssens等人(2006)利用各种聚类方法绘制图书馆与信息科学领域的知识图谱。同样,Kim和Lee(2008)利用文本聚类探索档案研究领域新兴的知识结构。其他的科研人员则关注文档聚类算法的优化,如Liu等人(2010)提出了对期刊集进行分析的混合聚类架构,Janssens、Glänzel、De Moor(2008)基于Fisher的逆卡方(inverse chi-square)提出一种方法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。