《表4 实验样本采样效果对比》

《表4 实验样本采样效果对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Spark框架的用于金融信贷风险控制的加权随机森林算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了有效较少非平衡数据集导致模型训练结果有效性下降的现象,该实验采用对多数类进行欠采样和对少数类进行过采样的方式生成一个相对平衡的数据集.训练数据集样本采集2017年6月-8月的总计30万条数据,经过分析发现经采样后多数类与少数类的比例由原始数据的9∶1减少为11∶3,有效降低了数据集的非平衡性.表4是采样后的数据集与未经过采样的数据集性能对比.