《表1 样本不均衡分布情况统计》
为了证明这一观点,选择UCI下的三个正负样本不同比例的数据集(煤矿高能地震波数据集、肺癌患者数据集和心力衰竭患者数据集),分别对比学习器(随机森林)使用SMOTE和F_SMOTE的实验数据。其中,随机森林学习器采用默认参数设置,使用5折交叉验证,SMOTE中的K近邻参数取值为3。为便于对比新算法的优势,三个数据集的正负数据分布情况如表1所示,SMOTE和F_SMOTE的PR曲线下的AUC值如图1所示。
图表编号 | XD00212874400 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.25 |
作者 | 邱云飞、郭蕾 |
绘制单位 | 辽宁工程技术大学软件学院、辽宁工程技术大学软件学院 |
更多格式 | 高清、无水印(增值服务) |