《表6 各类特征分类召回率结果》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于XGBoost方法的社交网络异常用户检测技术》
/%
社交网络用户的特征可分为文本、地点、用户、关系四类。为探究不同类别的用户特征对分类结果的影响,并验证XG-Boost特征选择方法的有效性,本轮实验中分别选择四类特征单独训练模型,通过XGBoost按照影响力排名选择前10个、前20个特征单独训练XGBoost和RF分类器进行测试,进行五次重复实验取平均值。分类效果如表6所示。实验表明,单独使用部分类别特征虽然也可以达到一定的分类效果,例如采用32个内容特征即可得到73%的召回率,但通过XGBoost方法仅选择20个特征,就能在两种分类算法中实现80%以上的平均召回率,接近采用全部特征的分类结果;仅采用前10个重要特征,仍能达到73.3%的召回率,精度高于单独选取任何一类全部特征。这证明了社交网络异常用户检测过程中,综合选取各类特征可以达到比单独选取相同数量的某一类特征更为有效的结果,证明了XGBoost特征选择的有效性。在公安实战中,有效的特征选择过程可以减少样本采集所需的特征数,从而提升检测效率。此外,以上所有情况中XGBoost均得到比RF更高的召回率,再次证明XGBoost分类算法的优势。
图表编号 | XD00133927800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.01 |
作者 | 袁丽欣、顾益军、赵大鹏 |
绘制单位 | 中国人民公安大学信息技术与网络安全学院、中国人民公安大学信息技术与网络安全学院、中国人民公安大学信息技术与网络安全学院 |
更多格式 | 高清、无水印(增值服务) |