《表3 Sohu数据集的AC和NMI》

《表3 Sohu数据集的AC和NMI》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《结合新概念分解和频繁词集的短文本聚类》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

首先就是聚类质量对比,从表3和表4可以看出,在两个数据集的各个不同短文本数量下CNPCF和CFFIC的AC和NM I均优于RNM F,这是因为CF继承了NM F的所有优点,作为扩展的CF也是优于NMF的扩展.此外,可以发现虽然在Sohu数据集上CNPCF、CFFIC以及FIC的AC和NMI的数值较为接近,但在Weibo数据集上CFFIC、FIC要明显优于CNPCF,其中FIC的AC和NM I的平均值分别比CNPCF提高了39.2%和23.7%,而CFFIC的AC和NMI的平均值分别比CNPCF提高了40.5%和24.7%.原因在于书写微博内容比较随意但书写新闻标题是需要严谨规范的,因此Weibo数据集的噪音数据的数量比Sohu数据集多,而采用频繁词集进行特征选择的具有更好的鲁棒性,可以降低噪声数据对于聚类质量的影响.