《表1 主题一致性和专有性值》

《表1 主题一致性和专有性值》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《Skip-Gram结构和词嵌入特性的文本主题建模》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从实验结果表1可以看出,本文SG-TM模型结果多数优于TDLM等模型,在APNews、BNC和IMDB数据集上,主题一致性值能提高将近6%;主题词的专有性多数都有所提高,最优值部分能提高2%.而主题词的专有性随主题值的增加,多会下降,表明主题结果的冗余度逐渐提高.仅从NPMI值结果可以得出,APNews、BNC数据集的最优主题值大于100,IM DB数据集的最优主题值小于100.这三种数据集中,IM DB数据集的结果要低于APNews和BNC数据集结果.实验分析发现:IMDB数据集用词比较简单,经过预处理后,它的文本篇幅都较小.此外,在相同数据集和超参数条件下,当模型使用不同的预训练词向量,所得到的主题一致性结果差别也很大.虽然SGNS、GloVe和SPPMI模型的词向量都含有词语义信息,但是SGNS模型是通过训练词间相邻信息获得词嵌入向量;GloVe模型词向量直接含有词之间共现值,结果还会受到残差值影响;SPPMI模型词向量直接来自于语料的全局词间pmi值,其更能够体现词间的点互信息大小,从而直接帮助提高主题的一致性值.