《表2 实验数据集信息:不平衡数据分类中的数据重采样比较研究》

《表2 实验数据集信息:不平衡数据分类中的数据重采样比较研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《不平衡数据分类中的数据重采样比较研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表2列出了本文使用的数据集,其中包含了属于生物医疗、软件工程以及网站统计等不同专业领域的14个公开数据集,均可在PROMISE软件工程库[19]、UCI机器学习库[20]等公开数据库中获取。表2中数据集按不平衡比例排序,可见在现实世界的真实数据集中类别分布不平衡现象普遍存在。其中,只有diabetic和pima两个数据集相对平衡,有8个数据集的不平衡比率在1:2~1:10,而onehr、pc5、mc1和pc2这4个数据集的不平衡比例则高于1:30。此外,各数据集的大小也相差悬殊,样本数量在253~17 186不等。