《表2 WEBSPAM-UK2006》
基于内容的特性主要关注的是web页面的内容,包括页面上的字数、标题中的字数、平均字数、压缩率和页面的熵等特性.在该数据集中,提取了96个基于内容的特征.基于链接的特性主要关注的是web页面中的链接,包括诸如页面输出链接的数量、进入页面链接的数量以及到内部页面的输出链接数量与总输出链接的比例等特性.在这个数据集中,提取了41个基于链接的特征.转换后的基于链接的功能包括简单的数值转换和基于链接的功能的组合.在这些特征中,可以看出基于链接的特征的对数和它们之间的比值.在这个数据集中,提取到138个特征.基于邻接图的特征是学习Stacked链接图得到的,共提取到2个特征.
图表编号 | XD00129612300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.01 |
作者 | 刘寒 |
绘制单位 | 北京邮电大学软件学院、北京邮电大学可信分布式计算与服务教育部重点实验室 |
更多格式 | 高清、无水印(增值服务) |