理论教育 Author-Conference-Topic模型

Author-Conference-Topic模型

时间:2023-10-06 理论教育 版权反馈
【摘要】:Tang、Jin和Zhang提出了Author-Conference-Topic模型,该模型能同时针对论文、作者及出版方模型,是LDA算法的一种拓展。Conference能提供出版方信息。可将ACT模型思想解释为:合著者决定着论文的主题,每个主题生成一系列的单词并决定出版方。ACT模型可以计算某一作者选择某一主题的概率,某一主题使用某一单词的概率,以及某一主题上出版方的概率。在该模型中,主要利用Gibbs抽样进行推理,并设置了具有参数值的超参数α、β和μ。主题数量用T表示。

Author-Conference-Topic模型

Tang、Jin和Zhang(2008)提出了Author-Conference-Topic(ACT)模型,该模型能同时针对论文、作者及出版方(Publication Venue)模型,是LDA算法的一种拓展。Conference能提供出版方信息(例如期刊、研讨会、组织)。可将ACT模型思想解释为:合著者决定着论文的主题,每个主题生成一系列的单词并决定出版方。ACT模型可以计算某一作者选择某一主题的概率,某一主题使用某一单词的概率,以及某一主题上出版方的概率。在该模型中,主要利用Gibbs抽样进行推理,并设置了具有参数值的超参数α、β和μ(α=50/T,β=0.01,μ=0.1)。使用参数x和z估计后验分布,结果用来推测θ、φ和ψ。后验概率计算如下:

经过Gibbs抽样后,给定主题后单词的概率φ、给定主题后会议的概率ψ以及给定作者后主题的概率θ可使用如下公式进行估计:(www.daowen.com)

论文d可用全部单词Nd的向量wd表示,其中,每一个wdi选自大小为V的词汇表。全部合著者集合Ad的向量ad从大小为A的作者集合中选取,cd代表出版方。论文集合D定义为D={(w1,a1,c1),…,(wD,aD,cD)}。主题数量用T表示。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈