《表1 训练集和测试集信息》

《表1 训练集和测试集信息》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的系统日志异常检测研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由于PCA和IM均采用会话窗口,故对比实验将使用会话窗口作为异常检测的基准。将HDFS数据集按照block_id进行分组,可以分为575 062个会话,在检测过程中,只要1个会话中出现异常日志,该会话即被视为异常。由于HDFS日志的规则并不复杂,且数据集中会话存在大量重复,因此本文方法和DeepLog方法选取前1%日志数据中的正常会话作为训练集训练模型,模型参数b、h、L、u(各参数的具体含义参见2.2节)均采用默认值(b=9,h=10,L=2,u=64)。PCA和IM这两种无监督方法则不需要特定标记的训练集,均按照原文中给出的方法构建模型。HDFS日志数据中每一个会话的时间跨度都比较大,考虑到PCA和IM构建模型需要完整的会话,本实验选择整个日志数据集作为4种算法的测试集,表1给出了训练集和测试集的具体信息。