《表4 不同分类器对应的评估指标》

《表4 不同分类器对应的评估指标》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《混合采样与遗传算法相结合的垃圾网页检测》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本实验采用基于随机混合采样和遗传算法的集成分类方法,其中分类器为XGBoost,交叉验证为5折,迭代次数是1 000.混合采样中,z值取2.遗传算法中,依次选用3~20个最优个体,多次实验发现最优个体数为9,即最后得到的最优特征子集为9个.实验结果如表4所示,从结果中可以看出,基于随机混合采样与遗传算法的分类器分类效果最佳,准确率与XGBoost算法相比提高了19.25%,说明了算法的有效性,通过随机采样与遗传迭代,能够获得平衡且特征数较少的数据集,从而提高分类器性能.表5为2007年垃圾网页挑战赛中优胜团队的结果,可以看出,在F1值这个评价指标上笔者提出的算法是优于其他队伍的,但是在AUC这个指标上较低,然而AUC值最高的Cormack团队的F1值仅为0.67,说明其分类效果并不好.