《表1 UCI数据集信息说明》

《表1 UCI数据集信息说明》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《Spark环境下基于综合权重的不平衡数据集成分类方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为评价本文方法对不平衡数据集分类问题的有效性,本文选择6个少数类和多数类样本比例不平衡的数据集进行实验,数据集来源于UCI机器学习数据库的数据集,见表1,其中UCI数据集样本数用#Ex表示,#F代表特征数,#C代表数据集类别数,#R代表少数类样本占数据集的比重.为了验证本文算法在spark平台上的有效性,采用KDD Cup 99数据集[19],其整个训练数据有500000条记录,以及URL Reputation数据集,其训练数据有2396130条记录,数据容量2.05GB.为了评估本文算法的性能,实验部分选择了决策树C4.5算法以及随机森林RF算法进行对比,对比算法都在Spark平台下的运行,以保证实验运行环境的一致性.本文训练的基分类器采用C4.5算法迭代20次;其中对照算法C4.5决策树算法以及随机森林RF算法直接对不平衡数据集进行分类,实验中选择的特征数一致以及随机森林算法训练每棵决策树时使用C4.5算法.