《表3 训练集设置:一种基于集成学习的钓鱼网站检测方法》
本文选定同样使用集成方法的检测方法作为比较对象。庄蔚蔚[11]等人提出的SVMNB系统以改进支持向量机和拓展贝叶斯分类器为基础分类器。冯庆[12]等人提出的IPDWS系统通过对网页URL,网页链接以及页面文本信息进行特征提取。丁岩[15]通过规则匹配和逻辑回归结合建立分类器,与前两文不同的是,本文提出了三条规则对网页进行预过滤,满足了实时监测的要求。此外,本文以决策树为基分类器构造集成分类器。与丁岩[15]不同的是,本文规则针对HTTPS提出,且扩大了特征集合,使用了集成学习方法。在特征提取方面,本文不仅提取了URL字符特征,还对网页的DNS、Whois信息、网页文本、子链接以及PageRank等特征进行了提取。针对以上三种检测方法,本文设置了对比实验进行分析,表3和表4是训练集和测试集样本设置的数目。其中,Phish数据集共有130个使用了HTTPS的网站,Yahoo共有432个使用了HTTPS的网站。
图表编号 | XD0090182200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.15 |
作者 | 余恩泽、努尔布力、于清 |
绘制单位 | 新疆大学信息科学与工程学院、新疆大学信息科学与工程学院、新疆大学信息科学与工程学院 |
更多格式 | 高清、无水印(增值服务) |