《表1 UCI数据集信息说明》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《Spark环境下基于综合权重的不平衡数据集成分类方法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

为评价本文方法对不平衡数据集分类问题的有效性，本文选择6个少数类和多数类样本比例不平衡的数据集进行实验，数据集来源于UCI机器学习数据库的数据集，见表1，其中UCI数据集样本数用#Ex表示，#F代表特征数，#C代表数据集类别数，#R代表少数类样本占数据集的比重.为了验证本文算法在spark平台上的有效性，采用KDD Cup 99数据集[19]，其整个训练数据有500000条记录，以及URL Reputation数据集，其训练数据有2396130条记录，数据容量2.05GB.为了评估本文算法的性能，实验部分选择了决策树C4.5算法以及随机森林RF算法进行对比，对比算法都在Spark平台下的运行，以保证实验运行环境的一致性.本文训练的基分类器采用C4.5算法迭代20次；其中对照算法C4.5决策树算法以及随机森林RF算法直接对不平衡数据集进行分类，实验中选择的特征数一致以及随机森林算法训练每棵决策树时使用C4.5算法.

图表编号	XD0060248300 严禁用于非法目的
绘制时间	2019.02.01
作者	丁家满、王思晨、贾连印、游进国、姜瑛
绘制单位	昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院
更多格式	高清、无水印（增值服务）