《表5 过采样后的样本数量分布》

《表5 过采样后的样本数量分布》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向非均衡数据的糖尿病并发症预测》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

将剩余的各70%样本作为训练集,由于训练集的正负样本比例是不均衡的,因此在训练之前要先进行采样,常见的采样方式有欠采样和过采样,由于欠采样牺牲掉了一些多数类的样本,很可能由于数据量不足而导致欠拟合。过采样在数据量上比欠采样有优势,因此本文选择对应的数据量相似的对比实验,对比了三种过采样方式:对少数类的样本进行n倍扩增的重采样、SMOTE和F_SMOTE。通过过采样创建新的少数类样本集,使正负样本均衡。对训练集使用三种采样方式后样本的数量分布情况如表5所示。