《表2 日志特征提取方法分析》

《表2 日志特征提取方法分析》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于日志数据的分布式软件系统故障诊断综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表2对比分析各日志特征提取方法.从输入角度来看,3种日志特征提取方法的输入均为一定数量的日志集合,基于统计的日志特征提取方法还需要已挖掘的日志模板作为输入,用以计算日志模板频率作为统计特征;从输出角度来看,基于自然语言处理的日志特征提取技术和基于统计的日志特征提取技术的输出为数字型的特征向量,基于规则的日志特征提取技术输出为结构化的日志信息,主要是日志中各个域(包括时间戳、日志等级、特殊变量、消息文本等)的内容.总体而言,基于自然语言处理的日志特征提取技术的优点在于充分提取独立日志的文本特征,能够捕获日志中自然语言部分的语义信息,计算相对较为方便.缺点在于忽略了日志序列中的上下文因果和关联关系,以字符为基本特征提取单元的方法可能会导致特征向量维度巨大,导致故障诊断模型效率下降;基于规则的日志特征提取技术利用日志中的特殊间隔符将日志切分为各个域,其优点在于能够将日志转化为结构化的信息,计算过程简单,输出整洁精确,缺点在于要求日志数据为固定格式,且需要日志结构的先验知识以定义日志切分的正则表达式;基于统计的日志特征提取技术的优点在于充分提取日志在时间轴上的频率分布特征,计算速度快,适用于不同模式不同表征的日志数据(包括事务型日志和操作型日志),缺点在于忽略了日志的文本特征以及上下文关联特征,生成的特征向量所包含的信息有限,只能作为系统故障发现的一个简单指标.