《表4 各欠采样方法在SVM上的F-Measure (G-Mean) 表现》

《表4 各欠采样方法在SVM上的F-Measure (G-Mean) 表现》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种改进型的不平衡数据欠采样算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表4和表5可以看到应用NearMiss-2后的CCNM算法与其它算法在10个数据集上F-Measure和G-Mean的表现.随机欠采样是最简单的方法,但如上表展示一样,由于随机性会去除大量的有用信息,R-andom算法无论在F-Measure还是G-Mean上都有着较低的分数.但值得注意的是,随机欠采样在le-tter、wine和balance数据集上有着尚可的表现,原因是这两个数据集是多类别的,将稀有类别作为少数类而其他类别作为多数类时,随机欠采样后的多数类样本在各个类别的分布可能是比较均匀的,利于后面的分类学习.CCNM算法首先利用聚类将多数类样本进行归类,再利用NearMiss-2对各个簇周围少数类样本个数进行分析,这样选出的多数类样本不仅具有更丰富的信息,在样本空间分布上也能围绕着少数类.因此,CCNM在不平衡数据分类任务中有更好的性能,尤其在不平衡度较高的yeast和glass数据集上提升明显,聚类在此处起到了很明显的去噪声的作用,同时保留了信息量高的多数类.