《表2 不同采样方式下XGBoost的预测效果》

《表2 不同采样方式下XGBoost的预测效果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于孤立森林采样策略的企业异常用水模式检测》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由图1和表2可知,基于iForest的欠采样的预测在采样比例为0.2时效果最佳,AUC值达到0.927,基于随机欠采样的预测在采样比例为0.7时最佳,AUC值为0.885,当不进行欠采样处理时,预测结果的AUC值为0.877。由此可知,在该不平衡数据集下,若对训练集做随机欠采样可以提升预测效果,但是采样过程为随机抽取,若数据集中含有较多“噪音”或是潜在未被标注的异常样本,会被等概率抽取进入训练数据集,从而影响分类器的训练,因此提升效果并不显著,而基于iForest采样策略针对“代表性”高的样本进行优先抽取,一定程度上优先避开了“噪音”样本,故预测结果比基于随机欠采样的AUC提升了约4.7%,查全率提升了21.6%。结果说明,本文提出的企业异常用水模式检测方法在考虑样本“代表性”后进行欠采样可以提升预测效果。