《表4 XGBoost与RF实验结果混淆矩阵》

《表4 XGBoost与RF实验结果混淆矩阵》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于XGBoost方法的社交网络异常用户检测技术》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
/%

本文所有分类实验的评价指标均由相同实验重复五次、计算平均值得到,从而避免实验结果的偶然性。作为对照组的随机森林方法运行环境、实验步骤均与XGBoost相同。在直接分类和二分类实验中,两种算法得到的结果混淆矩阵和分类报告如表2~4所示(NS表示notspam)。多分类混淆矩阵热力图如图4所示。由于在公安实战中,与正常用户相比更关注异常用户识别率,与模型检测的准确率相比更关注召回率,所以在对比算法性能时,应选取异常用户的召回率作为重要的评价指标。表3及图4显示,混淆矩阵对角线所在色块颜色较深,说明两种方法均能实现对异常用户的有效监测。由表2~4可以看出,本文方法在将spam用户作为一个整体而进行的二分类任务中(表5),对异常用户的总体检测召回率可以达到93.22%,比随机森林的89.11%提升了4个百分点。在多分类任务中(表3)对各类spam用户的召回率分别达到78.96%、68.66%、58.68%,与随机森林相比召回率以及F1值均产生稳定提升(召回率分别提升约1%、4%、5%,F1值提升1%以上)。这表明本文方法对以检测异常用户为目标的公安实战工作更具实际意义。