《表1 UCI数据集信息说明》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《Spark环境下基于综合权重的不平衡数据集成分类方法》
为评价本文方法对不平衡数据集分类问题的有效性,本文选择6个少数类和多数类样本比例不平衡的数据集进行实验,数据集来源于UCI机器学习数据库的数据集,见表1,其中UCI数据集样本数用#Ex表示,#F代表特征数,#C代表数据集类别数,#R代表少数类样本占数据集的比重.为了验证本文算法在spark平台上的有效性,采用KDD Cup 99数据集[19],其整个训练数据有500000条记录,以及URL Reputation数据集,其训练数据有2396130条记录,数据容量2.05GB.为了评估本文算法的性能,实验部分选择了决策树C4.5算法以及随机森林RF算法进行对比,对比算法都在Spark平台下的运行,以保证实验运行环境的一致性.本文训练的基分类器采用C4.5算法迭代20次;其中对照算法C4.5决策树算法以及随机森林RF算法直接对不平衡数据集进行分类,实验中选择的特征数一致以及随机森林算法训练每棵决策树时使用C4.5算法.
图表编号 | XD0060248300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.02.01 |
作者 | 丁家满、王思晨、贾连印、游进国、姜瑛 |
绘制单位 | 昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院 |
更多格式 | 高清、无水印(增值服务) |