《表2 基于视觉特征的仿冒域名轻量级判定方法的实验结果》
对于判定一个域名是否为另一个域名的仿冒域名问题,将本文基于视觉特征的仿冒域名轻量级检测方法与基于编辑距离的判定方法进行了对比。基于编辑距离的方法需要计算两个域名间的编辑距离,如果编辑距离小于或等于设定的阈值θ,则认为前一个域名为后一个域名的仿冒域名,在实际应用中,编辑距离的阈值θ通常取1或2。一共做了10组对比实验,同组对比实验使用同样的数据集,组与组之间使用不同的数据集,这10组对比实验的数据集都是基于4.2节中提到的方法构造的正、负样本分别为16 273、17 139,总规模为33 412的数据集。表2为基于编辑距离的判定方法在θ取值分别为1、2和3时的实验结果。对这10次实验结果取平均可以看到,在基于编辑距离的判定方法中,当阈值θ=1时,F1值最大,为0.904 9,但是随着阈值θ的增大,F1值会骤减;当θ=2时,F1值降至0.844 5;当θ=3时,F1值更是下降到0.521 2,所以用基于编辑距离的方法进行仿冒域名判定时,阈值θ设定为1,即当编辑距离小于1时,就认为该域名为比对域名的仿冒域名。
图表编号 | XD00197702700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.08.10 |
作者 | 朱怡、宁振虎、周艺华 |
绘制单位 | 北京工业大学信息学部、北京工业大学信息学部、北京工业大学信息学部 |
更多格式 | 高清、无水印(增值服务) |