《表2 敏感词统计表:基于URL语言特征的钓鱼网站检测算法》
通过上述分析的钓鱼网站和合法网站的子域名在语言特征上的差异,将常用的公共后缀、“-”、“.”、数字和知名的主级域名定义为敏感词。其中,知名主级域名是从Alexa网站上获取的排名前500的网站,去重后记录下这些网站的主级域名,并将其放入白名单。敏感词的分类和数量如表2所示。敏感词的匹配过程同词素一样。敏感度的定义如下。
图表编号 | XD00119574300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.15 |
作者 | 王雨琪、刘博文、林果园 |
绘制单位 | 中国矿业大学计算机科学与技术学院、矿山数字化教育部工程研究中心、中国矿业大学计算机科学与技术学院、矿山数字化教育部工程研究中心、中国矿业大学计算机科学与技术学院、矿山数字化教育部工程研究中心、南京大学计算机软件新技术国家重点实验室 |
更多格式 | 高清、无水印(增值服务) |