《表1 URL未知单词处理方式示例Tab.1 Example of Unknown Word Processing in URL》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于上下文信息的恶意URL检测技术》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

我们首先去掉了对区分正常和恶意URL几乎没有影响的协议部分和’www.’字符串。而且URL的分词方式不同于文本，我们采用以特殊符号作为分隔符，通过统计收集到的38万条URL上的特殊符号，最终选用（'!'，'#'，'$'，'&'，'*'，'+'，'，'，'-'，'.'，'/'，':'，'；'，'<'，'='，'>'，'?'，'@'，'＿'，'`'，'{'，'|'，'}'，'～'）这23个符号作为单词的分隔符。并且这些分隔符也被当成一个单词处理，根据前人的研究[15]，恶意URL中出现特殊符号的数量要大于正常URL中的符号数量，所以特殊符号也可以为模型判断URL是否是恶意的提供一部分信息，全部URL分词之后会得到一个巨大的词典。由前文所述，URL中含有较多‘未知单词’需要处理，所以在词典中要替换掉这些‘未知单词’，我们按照这些‘未知单词’所处位置和类型的不同分别处理，具体处理方式如表1所示。

图表编号	XD0039653700 严禁用于非法目的
绘制时间	2019.01.01
作者	吴海滨、张冬梅
绘制单位	北京邮电大学网络空间安全学院、北京邮电大学网络空间安全学院
更多格式	高清、无水印（增值服务）