《表3“地震”主题每年的出现强度及其词汇分布》

《表3“地震”主题每年的出现强度及其词汇分布》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度挖掘的学术论文关联数据构建与可视化分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在获取学科主题不同年份的主题词汇分布和出现强度后,需要进一步将不同年份的主题与论文相关联。首先,需要确定每篇论文的相关主题。在前述的“文档-主题”分布中,我们获得了不同主题在每篇文档中的概率分布。通常出现概率越高的主题,与文档内容越相关[17]。为了确定每篇论文相关主题的截取阈值,我们根据“文档-主题”分布,计算所抽取的80个主题在论文中出现的平均概率,并以平均概率值作为截取阈值。对于每篇论文,将出现概率大于阈值的主题认定为该论文的相关主题,同时也即获得与每个主题相关的论文。接下来,针对某一主题,将该主题的相关论文按照年度进行划分,可得到不同年度的相关论文,由于该主题在不同年度具有不同的内容(即词汇分布),两者相结合,即可以得到某一主题在不同年度内容演化情况和相关论文分布。图2所示为“地震”主题在2005年的词汇分布以及与之相关的2005年发表的论文。