《表9 Derby数据集结果》

《表9 Derby数据集结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的安全缺陷报告预测方法实证研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从表7~表10我们可以发现,在4个小规模数据集中,Nnsbr:Nsbr比例越小(即不均衡程度越低),性能指标Recall的取值越大;但是Precision指标的取值却恰恰相反,并最终造成F1-score指标的取值也呈减小趋势.与原始数据集(未进行采样)执行结果(即表5)相比,“欠采样”方法对4个小规模数据集的性能贡献非常有限,只有在数据集Wicket上对F1-score有所提高.对于大规模数据集OpenStack,对比表11和表5(最后一行)数据可以发现,所采用的“过采样”方法可以明显提高F1-score指标取值,尤其在模型TextCNN中,F1-score指标的最大取值可以从原始数据集中的0.410提高到0.681(复制2倍正样本情况下),即提高了66.10%;但是在正样本复制3倍的情况下,F1-score指标的取值则呈下降趋势.此外,在4个小规模数据集中,“欠采样”方法对TextCNN和Attention+TextRNN模型的影响类似,所得到的性能指标值非常接近(例如数据集Ambari中,在Nnsbr:Nsbr=10:1的情况下,模型TextCNN和Attention+TextRNN所得的F1-score值都为0.611).而在大规模数据集OpenStack中,对训练样本进行“过采样”处理后,模型TextCNN的整体表现要优于Attention+TextRNN.