《表1 恶意仿冒URL样例》

《表1 恶意仿冒URL样例》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于多层卷积模型的恶意URL特征自动提取》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

将Alexa Top 1M域名集的m条域名去除顶级域名作为集合U={U1,U2…Um},从Phishtank网站爬取的n条恶意URL,按第2章所述方法将其切分。本文数据均为基于HTTP协议的URL,故无需与集合U进行相似度对比。将主机名域,路径名域,文件名域,参数域作为集合H={H1,H2…Hn},P={P1,P2…Pn},F={F1,F2…Fn},Q={Q1,Q2…Qn}分别与集合U进行Jaccard相似系数计算,若Ui与Hi,Pi,Fi,Qi中任意的Jaccard系数大于等于0.65,则第i条恶意URL为恶意仿冒URL,即负样本集,见表1。某些恶意仿冒URL的提取过程较费时,可能导致恶意仿冒URL集的提取过程耗费一定时间,但并不影响后续实验的检测。