《表3 主题间平均相似度随主题表征词语数量变化情况》

《表3 主题间平均相似度随主题表征词语数量变化情况》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于短语表示学习的主题识别及其表征词抽取方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

参考先前文档间差异性定量比较的指标[29-30],本文通过主题表征词向量获得每个主题的向量表示,进而通过计算主题向量间的平均相似度定量比较主题表征词区分主题的效果。主题的平均相似度越低,说明主题间区分程度越大,主题表征词抽取效果越好,反之亦然。具体做法是对每个主题T及其表征词语{w1,w2,…,wn},先由短语表示学习得到的表征词向量求和作为每个主题的向量表示,即,然后计算两两主题之间的余弦相似度,最后将这些余弦相似度相加并计算均值表示主题间的平均相似度,即。本文分别选取每个主题前10至前100个表征词语的向量之和表示主题向量,计算不同数量表征词的主题间平均相似度,具体计算结果如表3所示。