《表1 各算法在不同规模数据集上的准确度》

《表1 各算法在不同规模数据集上的准确度》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Hadoop的局部异常检测算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文从KDD-CUP 99数据集中选取5种不同规模的子集,首先进行预处理操作,然后进行数据标准化处理,以排除数据属性不同量纲带来的影响。各算法在不同规模数据集上检测的准确度大小如表1所示。从表1数据可以看出,本文提出的MR-DINFLO算法的准确度从数据集为100万时的0.86增长到500万时的0.94。这也说明了随着数据量的逐渐增大,算法越趋稳定。算法准确度评价结果如图2所示,从图2可以看出,在处理相同规模的数据时,本文提出的MR-DINFLO算法的准确度比MR-DINFLO(无信息熵)高,因此可以看出引入信息熵提高了检测准确度。同时可以看出INFLO算法准确度比LOF算法高。