《表2 文本集中部分词语映射后结果》

《表2 文本集中部分词语映射后结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于WMF_LDA主题模型的文本相似度计算》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在本文进行实验所采用的1 000篇文本中,共包含6万多个不同的词语。利用word2vec模型在语义层面上对词语进行合并和统一化映射时,本文设定阈值t=0.5,对大于该阈值的词组进行合并。最终将词语数量降低为4万,仅为原来的三分之二,可以有效地提高后续进行LDA建模的速度。表2展示了文本集中的一些词语在根据语义信息与其他词语进行合并之后结果。