《表2 部分汉语文本聚类频率最高的10个词》
所以用较多的时间来计算聚类最优的种类,通过实验可以发现,在LDA模型下,直接生成的话题簇可以代表聚类种类。在表2~表4中罗列了汉语文本、维吾尔语文本及英语文本聚类后,词频最高的前10个词,可以直观地发现,这些词都有紧密的联系,放在一起,就可以作为一类文本的特征词用于检索更进一步的任务。
图表编号 | XD0044238400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.02.01 |
作者 | 田亮、吐尔根·依布拉音、艾山·吾买尔、卡哈尔江·阿比的热西提 |
绘制单位 | 新疆大学信息科学与工程学院、新疆多语种信息技术重点实验室、新疆大学信息科学与工程学院、新疆多语种信息技术重点实验室、新疆大学信息科学与工程学院、新疆多语种信息技术重点实验室、新疆大学信息科学与工程学院、新疆多语种信息技术重点实验室 |
更多格式 | 高清、无水印(增值服务) |