《表2 实验数据集信息:不平衡数据分类中的数据重采样比较研究》
表2列出了本文使用的数据集,其中包含了属于生物医疗、软件工程以及网站统计等不同专业领域的14个公开数据集,均可在PROMISE软件工程库[19]、UCI机器学习库[20]等公开数据库中获取。表2中数据集按不平衡比例排序,可见在现实世界的真实数据集中类别分布不平衡现象普遍存在。其中,只有diabetic和pima两个数据集相对平衡,有8个数据集的不平衡比率在1:2~1:10,而onehr、pc5、mc1和pc2这4个数据集的不平衡比例则高于1:30。此外,各数据集的大小也相差悬殊,样本数量在253~17 186不等。
图表编号 | XD00156297500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.06.10 |
作者 | 衷宇清、陈文文、李昭桦 |
绘制单位 | 广州供电局通信中心、广州供电局通信中心、中国能源建设集团广东省电力设计研究院 |
更多格式 | 高清、无水印(增值服务) |