《表5 过采样后的样本数量分布》
将剩余的各70%样本作为训练集,由于训练集的正负样本比例是不均衡的,因此在训练之前要先进行采样,常见的采样方式有欠采样和过采样,由于欠采样牺牲掉了一些多数类的样本,很可能由于数据量不足而导致欠拟合。过采样在数据量上比欠采样有优势,因此本文选择对应的数据量相似的对比实验,对比了三种过采样方式:对少数类的样本进行n倍扩增的重采样、SMOTE和F_SMOTE。通过过采样创建新的少数类样本集,使正负样本均衡。对训练集使用三种采样方式后样本的数量分布情况如表5所示。
图表编号 | XD00212874600 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.25 |
作者 | 邱云飞、郭蕾 |
绘制单位 | 辽宁工程技术大学软件学院、辽宁工程技术大学软件学院 |
更多格式 | 高清、无水印(增值服务) |