《表1 特征说明表:基于XGBoost方法的社交网络异常用户检测技术》

《表1 特征说明表:基于XGBoost方法的社交网络异常用户检测技术》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于XGBoost方法的社交网络异常用户检测技术》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文采用Apontador数据集[9]检验方法的有效性。该数据集由巴西著名的基于位置的社交网络采集而来,是包含正常用户和spam用户的平衡数据集,其中spam用户包括三类,分别是产品营销广告发布者(LM)、发布内容与话题标签信息不符的内容污染者(PL),以及攻击、谩骂等不良言论发布者(BM),分别占异常用户比例为31%、48.5%、21.4%。每条记录包含59个特征字段(表1)和两个分类字段。原作者分别使用支持向量机和随机森林方法对该数据集的四类用户进行了直接分类,先区分样本是否属于异常,再区分异常用户类别的二次分类,验证了RF在以上分类任务中效果均明显优于SVM(直接分类时RF对三类spam的召回率比SVM分别提升3.2%、4.5%、5.8%,二次分类中分别提升1.7%、3.9%、6.3%)。为体现本文方法的合理性,本文在Python环境中复现文献[1]最优参数下的RF分类实验,将其作为实验对比。