《表2 日志特征提取方法分析》
表2对比分析各日志特征提取方法.从输入角度来看,3种日志特征提取方法的输入均为一定数量的日志集合,基于统计的日志特征提取方法还需要已挖掘的日志模板作为输入,用以计算日志模板频率作为统计特征;从输出角度来看,基于自然语言处理的日志特征提取技术和基于统计的日志特征提取技术的输出为数字型的特征向量,基于规则的日志特征提取技术输出为结构化的日志信息,主要是日志中各个域(包括时间戳、日志等级、特殊变量、消息文本等)的内容.总体而言,基于自然语言处理的日志特征提取技术的优点在于充分提取独立日志的文本特征,能够捕获日志中自然语言部分的语义信息,计算相对较为方便.缺点在于忽略了日志序列中的上下文因果和关联关系,以字符为基本特征提取单元的方法可能会导致特征向量维度巨大,导致故障诊断模型效率下降;基于规则的日志特征提取技术利用日志中的特殊间隔符将日志切分为各个域,其优点在于能够将日志转化为结构化的信息,计算过程简单,输出整洁精确,缺点在于要求日志数据为固定格式,且需要日志结构的先验知识以定义日志切分的正则表达式;基于统计的日志特征提取技术的优点在于充分提取日志在时间轴上的频率分布特征,计算速度快,适用于不同模式不同表征的日志数据(包括事务型日志和操作型日志),缺点在于忽略了日志的文本特征以及上下文关联特征,生成的特征向量所包含的信息有限,只能作为系统故障发现的一个简单指标.
图表编号 | XD00168937200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.01 |
作者 | 贾统、李影、吴中海 |
绘制单位 | 北京大学信息科学技术学院、北京大学软件工程国家工程研究中心、北京大学软件工程国家工程研究中心 |
更多格式 | 高清、无水印(增值服务) |