《表3 信息增益值:基于URL语言特征的钓鱼网站检测算法》
这7个特征在最佳分割点的信息增益如表3所示,数据显示,平均基元数、非词素字母平均个数、敏感词平均比重、词素平均相对个数、词素平均比重、词素平均长度和词素频率分布熵在最佳分割点上的信息增益逐渐减小,其中词素平均长度和词素频率分布熵的信息增益过小,均小于0.02,难以用来检测子域名。根据上述图和表中的信息最终选择平均基元数、非词素字母平均个数、敏感词平均比重、词素平均相对个数、词素平均比重作为子域名特征来检测钓鱼网站和合法网站。
图表编号 | XD00119574100 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.15 |
作者 | 王雨琪、刘博文、林果园 |
绘制单位 | 中国矿业大学计算机科学与技术学院、矿山数字化教育部工程研究中心、中国矿业大学计算机科学与技术学院、矿山数字化教育部工程研究中心、中国矿业大学计算机科学与技术学院、矿山数字化教育部工程研究中心、南京大学计算机软件新技术国家重点实验室 |
更多格式 | 高清、无水印(增值服务) |