《表6 各类特征分类召回率结果》

《表6 各类特征分类召回率结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于XGBoost方法的社交网络异常用户检测技术》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
/%

社交网络用户的特征可分为文本、地点、用户、关系四类。为探究不同类别的用户特征对分类结果的影响,并验证XG-Boost特征选择方法的有效性,本轮实验中分别选择四类特征单独训练模型,通过XGBoost按照影响力排名选择前10个、前20个特征单独训练XGBoost和RF分类器进行测试,进行五次重复实验取平均值。分类效果如表6所示。实验表明,单独使用部分类别特征虽然也可以达到一定的分类效果,例如采用32个内容特征即可得到73%的召回率,但通过XGBoost方法仅选择20个特征,就能在两种分类算法中实现80%以上的平均召回率,接近采用全部特征的分类结果;仅采用前10个重要特征,仍能达到73.3%的召回率,精度高于单独选取任何一类全部特征。这证明了社交网络异常用户检测过程中,综合选取各类特征可以达到比单独选取相同数量的某一类特征更为有效的结果,证明了XGBoost特征选择的有效性。在公安实战中,有效的特征选择过程可以减少样本采集所需的特征数,从而提升检测效率。此外,以上所有情况中XGBoost均得到比RF更高的召回率,再次证明XGBoost分类算法的优势。