《表1 恶意仿冒URL样例》
将Alexa Top 1M域名集的m条域名去除顶级域名作为集合U={U1,U2…Um},从Phishtank网站爬取的n条恶意URL,按第2章所述方法将其切分。本文数据均为基于HTTP协议的URL,故无需与集合U进行相似度对比。将主机名域,路径名域,文件名域,参数域作为集合H={H1,H2…Hn},P={P1,P2…Pn},F={F1,F2…Fn},Q={Q1,Q2…Qn}分别与集合U进行Jaccard相似系数计算,若Ui与Hi,Pi,Fi,Qi中任意的Jaccard系数大于等于0.65,则第i条恶意URL为恶意仿冒URL,即负样本集,见表1。某些恶意仿冒URL的提取过程较费时,可能导致恶意仿冒URL集的提取过程耗费一定时间,但并不影响后续实验的检测。
图表编号 | XD00206653900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.16 |
作者 | 张婷、钱丽萍、汪立东、张慧 |
绘制单位 | 北京建筑大学电气与信息工程学院、北京建筑大学电气与信息工程学院、国家计算机网络应急技术处理协调中心、北京建筑大学电气与信息工程学院 |
更多格式 | 高清、无水印(增值服务) |