理论教育 学术交流中的主题模型方法和实践

学术交流中的主题模型方法和实践

时间:2023-10-06 理论教育 版权反馈
【摘要】:Liu、Zhang和Guo将Labelled LDA模型用于全文本引文分析,以提高传统的文献计量学分析性能。Ding结合主题模型和Pathfinding算法研究信息检索领域的科研合作和学术认可。Ding提出了基于主题模型和加权PageRank算法相结合的Topic-Dependent Rank。Natale、Fiore、Hofherr使用文献计量学及语义计算方法对水产领域的主题以及发展趋势进行了研究。

学术交流中的主题模型方法和实践

Mann、Mimno和McCallum(2006)应用主题模型方法对计算机科学领域的300 000篇文献提供了一个基于主题的影响力分析。他们将期刊影响因子方法拓展至主题分析,引入三种主题影响因子评价方法:主题多样性(即基于不同主题的引文情况对文献排名)、主题转移(即基于各自主题外的引文情况对文献排名)和主题优先度(即基于文献是否最先创建某个主题对文献排名)。他们还开发了主题N-Grams LDA模型,该模型使用词组而非单词来表现主题。Gerrish和Blei(2010)提出了基于动态LDA模型的文献影响力模型,此模型无需使用引文关系便可识别有影响力的文献。他们的假设是:在未来,一篇文献的影响力与其发表后所在领域的语言变化相关。因此,一篇文献如果含有随着时间推移变化频繁的单词,那么这篇文献的影响力就高。他们将这一模型应用于三个大型的文献集,影响力测量结果与文献被引频次显著相关。

Liu、Zhang和Guo(2012)将Labelled LDA模型用于全文本引文分析,以提高传统的文献计量学分析性能。Ding(2011a)结合主题模型和Pathfinding算法研究信息检索领域的科研合作和学术认可。结果表明,对于拥有共同研究主题的同事,高产作者乐于与他们合著论文,也乐于引用他们的论文,但是高产作者一般不与研究其他主题的同事直接合作。Ding(2011b)提出了基于主题模型和加权PageRank算法相结合的Topic-Dependent Rank。她用ACT模型提取作者和会议的主题分布,并将此作为PageRank算法的一个加权向量。结果表明,这个方法能够识别出不同时期、不同研究主题的有代表性的作者。随后,Ding(2011c)用Author-Topic模型检测作者社区,并将此方法与传统的社区检测算法(通常为基于拓扑结构的合著网络图分区)相比较。结果表明,后者检测到的社区倾向于在每个社区包含不同的主题,而作者—主题模型检测到的社区倾向于在每个社区包含拓扑多样性的子社区。Natale、Fiore、Hofherr(2012)使用文献计量学及语义计算方法(包含隐藏语义分析、主题模型及合作者分析)对水产领域的主题以及发展趋势进行了研究。Song、Kim、Zhang、Ding和Chambers(2014)采用基于Dirichlet多项式回归(DMR)主题模型方法分析了发表于2003—2011年的生物信息学文献的研究趋势,他们发现生物信息学领域经历了巨大的转变,与其他生物医学学科一同发展。(www.daowen.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈