《表1 恶意仿冒URL样例》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于多层卷积模型的恶意URL特征自动提取》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

将Alexa Top 1M域名集的m条域名去除顶级域名作为集合U={U1，U2…Um}，从Phishtank网站爬取的n条恶意URL，按第2章所述方法将其切分。本文数据均为基于HTTP协议的URL，故无需与集合U进行相似度对比。将主机名域，路径名域，文件名域，参数域作为集合H={H1，H2…Hn}，P={P1，P2…Pn}，F={F1，F2…Fn}，Q={Q1，Q2…Qn}分别与集合U进行Jaccard相似系数计算，若Ui与Hi，Pi，Fi，Qi中任意的Jaccard系数大于等于0.65，则第i条恶意URL为恶意仿冒URL，即负样本集，见表1。某些恶意仿冒URL的提取过程较费时，可能导致恶意仿冒URL集的提取过程耗费一定时间，但并不影响后续实验的检测。

图表编号	XD00206653900 严禁用于非法目的
绘制时间	2020.07.16
作者	张婷、钱丽萍、汪立东、张慧
绘制单位	北京建筑大学电气与信息工程学院、北京建筑大学电气与信息工程学院、国家计算机网络应急技术处理协调中心、北京建筑大学电气与信息工程学院
更多格式	高清、无水印（增值服务）