《表1 训练集和测试集信息》
由于PCA和IM均采用会话窗口,故对比实验将使用会话窗口作为异常检测的基准。将HDFS数据集按照block_id进行分组,可以分为575 062个会话,在检测过程中,只要1个会话中出现异常日志,该会话即被视为异常。由于HDFS日志的规则并不复杂,且数据集中会话存在大量重复,因此本文方法和DeepLog方法选取前1%日志数据中的正常会话作为训练集训练模型,模型参数b、h、L、u(各参数的具体含义参见2.2节)均采用默认值(b=9,h=10,L=2,u=64)。PCA和IM这两种无监督方法则不需要特定标记的训练集,均按照原文中给出的方法构建模型。HDFS日志数据中每一个会话的时间跨度都比较大,考虑到PCA和IM构建模型需要完整的会话,本实验选择整个日志数据集作为4种算法的测试集,表1给出了训练集和测试集的具体信息。
图表编号 | XD00107286200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.15 |
作者 | 王易东、刘培顺、王彬 |
绘制单位 | 中国海洋大学信息科学与工程学院、中国海洋大学信息科学与工程学院、中国海洋大学继续教育学院 |
更多格式 | 高清、无水印(增值服务) |