《表3“地震”主题每年的出现强度及其词汇分布》
在获取学科主题不同年份的主题词汇分布和出现强度后,需要进一步将不同年份的主题与论文相关联。首先,需要确定每篇论文的相关主题。在前述的“文档-主题”分布中,我们获得了不同主题在每篇文档中的概率分布。通常出现概率越高的主题,与文档内容越相关[17]。为了确定每篇论文相关主题的截取阈值,我们根据“文档-主题”分布,计算所抽取的80个主题在论文中出现的平均概率,并以平均概率值作为截取阈值。对于每篇论文,将出现概率大于阈值的主题认定为该论文的相关主题,同时也即获得与每个主题相关的论文。接下来,针对某一主题,将该主题的相关论文按照年度进行划分,可得到不同年度的相关论文,由于该主题在不同年度具有不同的内容(即词汇分布),两者相结合,即可以得到某一主题在不同年度内容演化情况和相关论文分布。图2所示为“地震”主题在2005年的词汇分布以及与之相关的2005年发表的论文。
图表编号 | XD0072252900 严禁用于非法目的 |
---|---|
绘制时间 | 2019.06.24 |
作者 | 曲佳彬、欧石燕、凌洪飞 |
绘制单位 | 南京大学信息管理学院、烟台大学图书馆、南京大学信息管理学院、南京大学信息管理学院 |
更多格式 | 高清、无水印(增值服务) |