《表3 信息增益值:基于URL语言特征的钓鱼网站检测算法》

《表3 信息增益值:基于URL语言特征的钓鱼网站检测算法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于URL语言特征的钓鱼网站检测算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

这7个特征在最佳分割点的信息增益如表3所示,数据显示,平均基元数、非词素字母平均个数、敏感词平均比重、词素平均相对个数、词素平均比重、词素平均长度和词素频率分布熵在最佳分割点上的信息增益逐渐减小,其中词素平均长度和词素频率分布熵的信息增益过小,均小于0.02,难以用来检测子域名。根据上述图和表中的信息最终选择平均基元数、非词素字母平均个数、敏感词平均比重、词素平均相对个数、词素平均比重作为子域名特征来检测钓鱼网站和合法网站。