《表2 文本集中部分词语映射后结果》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于WMF_LDA主题模型的文本相似度计算》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

在本文进行实验所采用的1 000篇文本中，共包含6万多个不同的词语。利用word2vec模型在语义层面上对词语进行合并和统一化映射时，本文设定阈值t=0.5，对大于该阈值的词组进行合并。最终将词语数量降低为4万，仅为原来的三分之二，可以有效地提高后续进行LDA建模的速度。表2展示了文本集中的一些词语在根据语义信息与其他词语进行合并之后结果。

图表编号	XD0090317400 严禁用于非法目的
绘制时间	2019.10.01
作者	张璐、芦天亮、杜彦辉
绘制单位	中国人民公安大学信息技术与网络安全学院、中国人民公安大学信息技术与网络安全学院、中国人民公安大学网络空间安全与法治协同创新中心、中国人民公安大学信息技术与网络安全学院、中国人民公安大学网络空间安全与法治协同创新中心
更多格式	高清、无水印（增值服务）