《表2 数据集信息:基于边界混合重采样的非平衡数据分类方法》

《表2 数据集信息:基于边界混合重采样的非平衡数据分类方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于边界混合重采样的非平衡数据分类方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了验证本文所提方法的有效性,从UCI国际机器学习数据库(http://www.ics.uci.edu)中选择了8组非平衡数据集。由文献[19-20]可知,一般当少数类与多数类的类分布比例低于1∶2时,数据具有非平衡特征。所用数据集样本点个数范围为215~4 601,样本点的属性维数范围为3~57,非平衡比率为多数类样本数与少数类样本数的比值,本文解决的是二分类非平衡问题,对于含有多个类别的数据集,人为的进行重构,并将重构后样本数量多的一类定义为多数类,样本数量少的一类定义为少数类。其中,Haberman数据集的第二类作为少数类,第一类作为多数类;Ecoli数据集的第pp、om为少数类,其他合起来为多数类;biodeg数据集的第RB类为少数类,NRB为多数类;Throid数据集第二类为少数类,其他类为多数类;Vehicle数据集第van类为少数类,其他合起来为多数类;Innosphere数据集的第b类为少数类,g类为多数类。各个数据集详细信息如表2所示。