《表2 工艺试验记录表:一种改进隔离森林的快速离群点检测算法》
图4展示了本文算法与原算法及2.2节中介绍的三种改进隔离森林算法在各数据集上运行十次的总时间对比.由图4可以看出,FIF的运行时间与其他算法相比较快,在Shuttle,Breastw,Musk,Optdigits数据集上进行十次实验的运行时间比原算法快近十倍,在Http数据集上的时间比原算法快数百秒.SCi Forest算法为了使正常簇和异常簇分割,要使用其设定分割选择标准寻找最佳分裂点,而原算法则采用随机分割,所以SCi Forest比原算法稍慢.Re Mass-i Forest算法构造隔离树时使用和原算法相同的策略,因此与原算法具有相同的时间复杂度.但由图4可以看到它的运行时间比原算法稍快,这是由于原算法在子树只包含一个节点时才停止构造隔离树,而Re Mass-iForest在评估阶段采用基于局部相对质量的方式来检测离群点,在构建隔离树过程中子树的节点小于5时即停止分裂,因此该算法比原隔离森林算法稍快.而本文算法运行时间最短的主要原因是FIF在构建隔离树时去除了可能不包含离群属性的树,只保留可能存在离群点的子样本集构造隔离树,减少了构造无关隔离树的时间,并使用收敛较快的黄金分割点来切分叶子节点,而隔离森林本身作为一种子空间方法,可以将隔离树看作隔离低维度的局部子空间中的集合,所以算法的微小修改也可用于快速发现低密度的子空间区域,使得算法在计算离群值时消耗的时间更少.
图表编号 | XD00212226500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.01 |
作者 | 冯嘉琛、蔡江辉、杨海峰 |
绘制单位 | 太原科技大学计算机科学与技术学院、太原科技大学计算机科学与技术学院、太原科技大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |