《表1 URL未知单词处理方式示例Tab.1 Example of Unknown Word Processing in URL》
我们首先去掉了对区分正常和恶意URL几乎没有影响的协议部分和’www.’字符串。而且URL的分词方式不同于文本,我们采用以特殊符号作为分隔符,通过统计收集到的38万条URL上的特殊符号,最终选用('!','#','$','&','*','+',',','-','.','/',':',';','<','=','>','?','@','_','`','{','|','}','~')这23个符号作为单词的分隔符。并且这些分隔符也被当成一个单词处理,根据前人的研究[15],恶意URL中出现特殊符号的数量要大于正常URL中的符号数量,所以特殊符号也可以为模型判断URL是否是恶意的提供一部分信息,全部URL分词之后会得到一个巨大的词典。由前文所述,URL中含有较多‘未知单词’需要处理,所以在词典中要替换掉这些‘未知单词’,我们按照这些‘未知单词’所处位置和类型的不同分别处理,具体处理方式如表1所示。
图表编号 | XD0039653700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.01.01 |
作者 | 吴海滨、张冬梅 |
绘制单位 | 北京邮电大学网络空间安全学院、北京邮电大学网络空间安全学院 |
更多格式 | 高清、无水印(增值服务) |