《表3 时频域特征和RF模型下的结果对比》

《表3 时频域特征和RF模型下的结果对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《不平衡样本下基于高斯混合生成模型的泄漏检测方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文分别选取了3种特征和3种有监督泄漏检测模型进行对比测试。表3、表4、表5为RF模型在不同输入特征下的对比结果,从3个表可知,当直接采用不平衡样本进行训练时,虽然模型的平均准确率为0.887,但平均灵敏性只有0.351。这说明模型泛化能力差,RF模型较好地学习了正常样本的分布规律,但对于泄漏样本的学习能力有限,不能准确识别泄漏样本,这是要平衡样本的主要原因。对于生成新泄漏样本的4种方法,ROS过采样的效果最差,其平均准确率为0.903,平均灵敏性为0.446。主要原因是ROS过采样是简单的对原始样本进行复制,使得分类器学到的规则过于具体化,不利于分类器的泛化性能,容易过拟合。SMOTE过采样和ADASYN过采样是ROS过采样的改进算法,它们的泄漏检测效果有了明显提升,平均准确率为0.940,平均灵敏性为0.661。这2种过采样方法虽然可以防止模型过拟合,但对泄漏样本的检测精度仍然较低。基于高斯混合生成模型的泄漏检测效果最好,平均准确率为0.986,平均灵敏性为0.981。即使在训练集中泄漏样本占比较低的情况下,基于高斯混合生成模型的泄漏检测准确率仍然较高,进一步说明该方法的稳定性和可靠性。主要原因是高斯混合生成模型产生的泄漏样本泛化性能好,高斯混合分量可以很好地拟合数据分布并产生合理的新泄漏样本供有监督模型学习。对于SVM模型和ANN模型,在3种不同输入特征下也得到相同结果。