《表3 七种算法的分类效果(AUC)对比》
为了进一步研究CSMOTE算法的性能,在六个数据集上将CSMOTE与Borderline-SMOTE、R-SMOTE、MDSMOTE、improvedSMOTE[17]和文献[7]所提出的两种欠抽样方法(分别简记为UC和UCN)进行比较。除了transfusionM数据集之外,实验所采用的数据集的不均衡比均为2左右,且考虑到CSMOTE算法选择参与合成样本的条件过于苛刻,如果过抽样的倍数Rate设置过大可能会产生冗余样本降低算法的效率,所以过抽样的倍数Rate设置为1。CSMOTE在簇中随机选择参与合成新样本,但是难以保证一次就选到符合条件的样本,为了合成足够的新样本,同时考虑到时间成本,文中实验将重复选择的次数T设置为当前簇中样本个数。CSMOTE聚类参数为2.3节调优所得k=7,实验所采用的分类器是以决策树为基分类器的bagging。实验中为保证结果的准确性,采用十折交叉验证法,将数据集平均分为10份,然后依次选择其中1份作为测试集,其余9份作为训练集,该过程重复10次。实验结果如图5所示,不同算法在6个数据集上AUC的均值如表3所示。
图表编号 | XD00163189900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.06.10 |
作者 | 崔鑫、徐华、宿晨 |
绘制单位 | 江南大学物联网工程学院、江南大学物联网工程学院、江南大学物联网工程学院 |
更多格式 | 高清、无水印(增值服务) |