《表1 基元数量统计表:基于URL语言特征的钓鱼网站检测算法》
其中,英文词素包括前缀、词根和后缀。在汉语中,把单独的汉字作为一个词素。但考虑到实际的注册习惯,中文网址一般由汉语拼音构成,无声调的汉语拼音涵盖了所有的汉字,并且数量有限,所以在这里将无声调的汉语拼音作为中文的词素。各类基元数量如表1。
图表编号 | XD00119574500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.15 |
作者 | 王雨琪、刘博文、林果园 |
绘制单位 | 中国矿业大学计算机科学与技术学院、矿山数字化教育部工程研究中心、中国矿业大学计算机科学与技术学院、矿山数字化教育部工程研究中心、中国矿业大学计算机科学与技术学院、矿山数字化教育部工程研究中心、南京大学计算机软件新技术国家重点实验室 |
更多格式 | 高清、无水印(增值服务) |