《表2 文本集中部分词语映射后结果》
在本文进行实验所采用的1 000篇文本中,共包含6万多个不同的词语。利用word2vec模型在语义层面上对词语进行合并和统一化映射时,本文设定阈值t=0.5,对大于该阈值的词组进行合并。最终将词语数量降低为4万,仅为原来的三分之二,可以有效地提高后续进行LDA建模的速度。表2展示了文本集中的一些词语在根据语义信息与其他词语进行合并之后结果。
图表编号 | XD0090317400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.01 |
作者 | 张璐、芦天亮、杜彦辉 |
绘制单位 | 中国人民公安大学信息技术与网络安全学院、中国人民公安大学信息技术与网络安全学院、中国人民公安大学网络空间安全与法治协同创新中心、中国人民公安大学信息技术与网络安全学院、中国人民公安大学网络空间安全与法治协同创新中心 |
更多格式 | 高清、无水印(增值服务) |