《表2 数据集的信息:结合样本局部密度的非平衡数据集成分类算法》

《表2 数据集的信息:结合样本局部密度的非平衡数据集成分类算法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《结合样本局部密度的非平衡数据集成分类算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

实验环境基于Eclipse Oxygen版本以及Weka3.8机器学习平台。实验数据集采用了KEEL公开的20个非平衡数据集[16]。数据集的具体信息如表2所示。数据集的非平衡率(IR)在1.80~41.00之间,样本数在214~1 484之间。为了保证算法的稳定性以及避免随机性,本文采用了五折交叉验证方法,将每个数据集分为5份,同时保持每份子集中样本的非平衡率与总体样本集相同。算法在每个数据集上运行20次,将最后得到的分类结果取平均值。分类算法采用了C4.5、NB、KNN、多层感知机(multi-layer perception,MLP)以及SMO(sequential minimal optimization)作为基分类器和分类性能测试算法,所有的分类器参数均采用Weka的默认设置,分类性能的评价指标为AUC值。为了验证文本提出的算法有效性,将TWD-IDOS、随机过采样(random oversampling,ROS)、随机欠采样(random undersampling,RUS)、BDSMOTE、SMOTE、SBAG4(SMOTEBagging4)[17]以及CBS(clustering-based sampling)[7]7个算法作为比较算法。