《表1 训练集和测试集信息》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于深度学习的系统日志异常检测研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

由于PCA和IM均采用会话窗口，故对比实验将使用会话窗口作为异常检测的基准。将HDFS数据集按照block＿id进行分组，可以分为575 062个会话，在检测过程中，只要1个会话中出现异常日志，该会话即被视为异常。由于HDFS日志的规则并不复杂，且数据集中会话存在大量重复，因此本文方法和DeepLog方法选取前1%日志数据中的正常会话作为训练集训练模型，模型参数b、h、L、u（各参数的具体含义参见2.2节）均采用默认值（b=9，h=10，L=2，u=64）。PCA和IM这两种无监督方法则不需要特定标记的训练集，均按照原文中给出的方法构建模型。HDFS日志数据中每一个会话的时间跨度都比较大，考虑到PCA和IM构建模型需要完整的会话，本实验选择整个日志数据集作为4种算法的测试集，表1给出了训练集和测试集的具体信息。

图表编号	XD00107286200 严禁用于非法目的
绘制时间	2019.10.15
作者	王易东、刘培顺、王彬
绘制单位	中国海洋大学信息科学与工程学院、中国海洋大学信息科学与工程学院、中国海洋大学继续教育学院
更多格式	高清、无水印（增值服务）