理论教育 EntityLDA模型在学术影响力测评中的应用

EntityLDA模型在学术影响力测评中的应用

时间:2023-10-06 理论教育 版权反馈
【摘要】:Newman、Chemudugunta和Smyth提出了Entity-Topic的统计方法,该方法用于实体建模,并基于对实体和单词的学习做预测。传统的LDA算法假设每篇文献包含一个或者多个主题,每个主题是单词的分布,而Newman的Entity-Topic模型将实体、主题和单词放到了一起。条件性独立LDA模型在学习过程中就认为单词和实体间有先验区别。SwitchLDA包含附加的二项分布用以控制主题实体。CorrLDA2通过允许不同的单词主题和实体主题改进了CorrLDA1。这些Entity-Topic模型可以用来计算在未来的文献中一对实体共现的可能性。

EntityLDA模型在学术影响力测评中的应用

LDA通常无法区别不同的类别或概念,而是把它们同等地看成文本或者字符串。但是随着信息的显著增长,急需针对各种概念及类别对信息进行管理、总结和可视化。例如,新闻报道强调谁(人),什么时候(时间),在哪里(位置),以及干什么(主题)这类信息。在生物医学领域,研究及临床试验的主要实体是基因、药物、疾病和蛋白质等。Newman、Chemudugunta和Smyth(2006)提出了Entity-Topic的统计方法,该方法用于实体建模,并基于对实体和单词的学习做预测。传统的LDA算法假设每篇文献包含一个或者多个主题,每个主题是单词的分布,而Newman的Entity-Topic模型将实体、主题和单词放到了一起。条件性独立LDA模型(CILDA)在学习过程中就认为单词和实体间有先验区别。SwitchLDA包含附加的二项分布用以控制主题实体。但是由CI-LDA和SwitchLDA生成的单词主题和实体主题可以分离。CorrLDA1通过以下方法加强了单词主题与实体主题间的联系:首先生成文献的单词主题,然后基于文献中现有单词主题生成实体主题,这样就能得到实体与单词的直接关系。CorrLDA2通过允许不同的单词主题和实体主题改进了CorrLDA1。这些Entity-Topic模型可以用来计算在未来的文献中一对实体共现的可能性。Kim、Sun、Hockenmaier和Han(2012)提出了一种实体主题模型(Entity Topic Model,ETM),在已知词条的主题及实体信息以及实体单词分布与主题单词分布的相关性后,ETM可以对词条的生成过程建模。(www.daowen.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈