《表3 信息增益排行前10的3-gram操作码序列》

《表3 信息增益排行前10的3-gram操作码序列》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于多特征融合的恶意代码分类算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文针对n-gram的操作码序列特征选择做了两部分研究。首先实验利用2-gram、3-gram、4-gram、5-gram提取的操作码序列进行实验,通过表2对比发现,3-gram和4-gram的F值一样且比2-gram、5-gram的F值相对较高,但3-gram的误差率比4-gram更低,因此本文使用3-gram提取的操作码序列作为特征。对3-gram提取的操作码序列进行信息增益计算,表3显示了信息增益排行前10的操作码序列。从表4可知,分类的准确率随特征提取数量的增加而增加,当数量大于900时,分类差异可以接近于0,如图6所示。