《表1 URL未知单词处理方式示例Tab.1 Example of Unknown Word Processing in URL》

《表1 URL未知单词处理方式示例Tab.1 Example of Unknown Word Processing in URL》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于上下文信息的恶意URL检测技术》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

我们首先去掉了对区分正常和恶意URL几乎没有影响的协议部分和’www.’字符串。而且URL的分词方式不同于文本,我们采用以特殊符号作为分隔符,通过统计收集到的38万条URL上的特殊符号,最终选用('!','#','$','&','*','+',',','-','.','/',':',';','<','=','>','?','@','_','`','{','|','}','~')这23个符号作为单词的分隔符。并且这些分隔符也被当成一个单词处理,根据前人的研究[15],恶意URL中出现特殊符号的数量要大于正常URL中的符号数量,所以特殊符号也可以为模型判断URL是否是恶意的提供一部分信息,全部URL分词之后会得到一个巨大的词典。由前文所述,URL中含有较多‘未知单词’需要处理,所以在词典中要替换掉这些‘未知单词’,我们按照这些‘未知单词’所处位置和类型的不同分别处理,具体处理方式如表1所示。