《表2 试验板设计方案:利用自然最近邻的不平衡数据过采样方法》

《表2 试验板设计方案:利用自然最近邻的不平衡数据过采样方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《利用自然最近邻的不平衡数据过采样方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了进一步验证本文方法的有效性,利用SMOTE、Borderline-SMOTE、SVM过采样方法和本文方法对9组UCI数据集进行少数类样本的过采样处理,再使用支持向量机和KNN对采样后的数据进行分类。数据集信息如表2所示,不平衡率是少数类样本数量和多数类样本数量的比值。对于多类数据集,将其中一类设置为少数类,其余类合并为多数类。所有样本点的特征值都被缩放到[0,1]之间。采用五折交叉验证的方法将所有数据集分为训练集和测试集,取平均值作为实验结果。本文所提方法使用Python语言编写,SMOTE、BorderlineSMOTE和SVM过采样方法使用的是Python库imbalancelearn package中的代码。支持向量机、KNN都使用Python库scikit-learn中的代码,SVM的核函数采用高斯核,KNN的近邻数量设置为5。