《表2 不同采样方式下XGBoost的预测效果》
由图1和表2可知,基于iForest的欠采样的预测在采样比例为0.2时效果最佳,AUC值达到0.927,基于随机欠采样的预测在采样比例为0.7时最佳,AUC值为0.885,当不进行欠采样处理时,预测结果的AUC值为0.877。由此可知,在该不平衡数据集下,若对训练集做随机欠采样可以提升预测效果,但是采样过程为随机抽取,若数据集中含有较多“噪音”或是潜在未被标注的异常样本,会被等概率抽取进入训练数据集,从而影响分类器的训练,因此提升效果并不显著,而基于iForest采样策略针对“代表性”高的样本进行优先抽取,一定程度上优先避开了“噪音”样本,故预测结果比基于随机欠采样的AUC提升了约4.7%,查全率提升了21.6%。结果说明,本文提出的企业异常用水模式检测方法在考虑样本“代表性”后进行欠采样可以提升预测效果。
图表编号 | XD00220553300 严禁用于非法目的 |
---|---|
绘制时间 | 2020.09.01 |
作者 | 林青轩、郭强、邓春燕、王雅静、刘建国 |
绘制单位 | 上海理工大学复杂系统科学研究中心、上海理工大学复杂系统科学研究中心、上海理工大学复杂系统科学研究中心、上海理工大学复杂系统科学研究中心、上海财经大学会计与财务研究院 |
更多格式 | 高清、无水印(增值服务) |