《表3 七种算法的分类效果(AUC)对比》

《表3 七种算法的分类效果(AUC)对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向不均衡数据集的过抽样算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了进一步研究CSMOTE算法的性能,在六个数据集上将CSMOTE与Borderline-SMOTE、R-SMOTE、MDSMOTE、improvedSMOTE[17]和文献[7]所提出的两种欠抽样方法(分别简记为UC和UCN)进行比较。除了transfusionM数据集之外,实验所采用的数据集的不均衡比均为2左右,且考虑到CSMOTE算法选择参与合成样本的条件过于苛刻,如果过抽样的倍数Rate设置过大可能会产生冗余样本降低算法的效率,所以过抽样的倍数Rate设置为1。CSMOTE在簇中随机选择参与合成新样本,但是难以保证一次就选到符合条件的样本,为了合成足够的新样本,同时考虑到时间成本,文中实验将重复选择的次数T设置为当前簇中样本个数。CSMOTE聚类参数为2.3节调优所得k=7,实验所采用的分类器是以决策树为基分类器的bagging。实验中为保证结果的准确性,采用十折交叉验证法,将数据集平均分为10份,然后依次选择其中1份作为测试集,其余9份作为训练集,该过程重复10次。实验结果如图5所示,不同算法在6个数据集上AUC的均值如表3所示。