《表3 在欠抽样法和重复抽样法下得到的模型F-Measure值》

《表3 在欠抽样法和重复抽样法下得到的模型F-Measure值》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于不平衡数据集的机器学习算法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表中所有加粗字体表示在同样的实验条件之下,加粗字体的数值较大。RE表示在重复抽样下的结果,表2数据表明,在用AUC作为评价指标时,重复抽样法在所有的抽样比例下都比欠抽样法要好。表3数据表明在用F-Measure作为评价指标时,C4.5和KNN算法在任何抽样比例下,都表现出重复抽样要优于欠抽样的特性,而NB和RF算法在抽样比例为40%、60%、80%时,重复抽样要优于欠抽样,只有LR算法在抽样比例为60%和80%时,重复抽样要优于欠抽样[6,7]。表4结果也证明了相似的结论,在五种算法中,有四种即C4.5、LR、RF、KNN无论在何种比例抽样中,重复抽样都要优于欠抽样。基于以上分析,本文得出了两个结论: