《表3 Sohu数据集的AC和NMI》
首先就是聚类质量对比,从表3和表4可以看出,在两个数据集的各个不同短文本数量下CNPCF和CFFIC的AC和NM I均优于RNM F,这是因为CF继承了NM F的所有优点,作为扩展的CF也是优于NMF的扩展.此外,可以发现虽然在Sohu数据集上CNPCF、CFFIC以及FIC的AC和NMI的数值较为接近,但在Weibo数据集上CFFIC、FIC要明显优于CNPCF,其中FIC的AC和NM I的平均值分别比CNPCF提高了39.2%和23.7%,而CFFIC的AC和NMI的平均值分别比CNPCF提高了40.5%和24.7%.原因在于书写微博内容比较随意但书写新闻标题是需要严谨规范的,因此Weibo数据集的噪音数据的数量比Sohu数据集多,而采用频繁词集进行特征选择的具有更好的鲁棒性,可以降低噪声数据对于聚类质量的影响.
图表编号 | XD00175970800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.06.01 |
作者 | 贾瑞玉、陈胜发 |
绘制单位 | 安徽大学计算机科学与技术学院、安徽大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |