《表2 WEBSPAM-UK2006》

《表2 WEBSPAM-UK2006》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《混合采样与遗传算法相结合的垃圾网页检测》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

基于内容的特性主要关注的是web页面的内容,包括页面上的字数、标题中的字数、平均字数、压缩率和页面的熵等特性.在该数据集中,提取了96个基于内容的特征.基于链接的特性主要关注的是web页面中的链接,包括诸如页面输出链接的数量、进入页面链接的数量以及到内部页面的输出链接数量与总输出链接的比例等特性.在这个数据集中,提取了41个基于链接的特征.转换后的基于链接的功能包括简单的数值转换和基于链接的功能的组合.在这些特征中,可以看出基于链接的特征的对数和它们之间的比值.在这个数据集中,提取到138个特征.基于邻接图的特征是学习Stacked链接图得到的,共提取到2个特征.