《表3 各特征选择方法最佳性能对比》

《表3 各特征选择方法最佳性能对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于节点度中心性的无监督特征选择》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

DCFS在图3(a),(d) ,(e) 上表现出很大优势。(a)中特征选择数量从70变动到140的过程中,DCFS的效果保持稳定,此时可以认为特征数量为70且θ=0.4时,DCFS达到最优,之后增加的特征(排名71~140)为冗余特征,并未影响聚类算法的判别能力。当k>140,算法判别能力急剧下降。DCFS的性能在(d)上随k值增大而增大。在图3(e)上特征数量较少时略有波动,而后趋于平稳。图3(b)和(c)显示DCFS在特征数量较少时效果较好,并在某k值达到最高峰值;但是特征数量上升时,NMI剧烈震荡并下降。图3(f)中的DCFS方法效果并不突出,考虑到USPS数据集的特征数量,由于特征数量很少(M=256),θ取值为0.5时,特征网络中的结构不够清晰,所有节点的度中心性比较接近,所以导致对K均值聚类的效果提升并不大;在θ=0.1时,特征网络只有很少的节点(34个)和连边(62个),不足以反映全局的特征结构。图4中图3(d)和(e)数据集从类型、特征数量和标签数量等方面看非常相似,结果却不太相同,可能的原因为:特征向量的维度决定关联度的准确性。实际上,此时选择结果显示,样例少的warpAR10P(N=130)的准确度低于在warpPIE10P(N=210)上的准确度。图2所示为USPS在不同阈值下的特征网络G(V,E)。表3为6种方法的性能比较。