《表2 各种算法的主题词挖掘性能比较》
表2显示了各种方法的主题词聚类性能结果,其中分别计算了聚类中前15和前30个单词的准确性。可以注意到,LDA和Classify-LDA在Rand-index方面表现较为相似。SS-LDA在Rand-index方面优于LDA和ClassifyLDA。对于Entropy指标,Classify-LDA优于LDA,而SS-LDA再次获得最佳性能。这是因为当主题的个数较多时,在Classify-LDA算法中的人工标注阶段,可能会出现某个词与多个主题都较为对应的情况,就可能会出现标注错误的后果,这对实验的结果会造成一定的影响。而本文SS-LDA使用常识知识充当LDA模型的监督,基于单词之间的相似性将两个相关或相似单词分配到同一个主题中。此外,所有算法的性能随着考虑的单词数量的增加而降低。
图表编号 | XD006918600 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.16 |
作者 | 赵林静 |
绘制单位 | 中国民航飞行学院计算机学院 |
更多格式 | 高清、无水印(增值服务) |