《表3 时频域特征和RF模型下的结果对比》
本文分别选取了3种特征和3种有监督泄漏检测模型进行对比测试。表3、表4、表5为RF模型在不同输入特征下的对比结果,从3个表可知,当直接采用不平衡样本进行训练时,虽然模型的平均准确率为0.887,但平均灵敏性只有0.351。这说明模型泛化能力差,RF模型较好地学习了正常样本的分布规律,但对于泄漏样本的学习能力有限,不能准确识别泄漏样本,这是要平衡样本的主要原因。对于生成新泄漏样本的4种方法,ROS过采样的效果最差,其平均准确率为0.903,平均灵敏性为0.446。主要原因是ROS过采样是简单的对原始样本进行复制,使得分类器学到的规则过于具体化,不利于分类器的泛化性能,容易过拟合。SMOTE过采样和ADASYN过采样是ROS过采样的改进算法,它们的泄漏检测效果有了明显提升,平均准确率为0.940,平均灵敏性为0.661。这2种过采样方法虽然可以防止模型过拟合,但对泄漏样本的检测精度仍然较低。基于高斯混合生成模型的泄漏检测效果最好,平均准确率为0.986,平均灵敏性为0.981。即使在训练集中泄漏样本占比较低的情况下,基于高斯混合生成模型的泄漏检测准确率仍然较高,进一步说明该方法的稳定性和可靠性。主要原因是高斯混合生成模型产生的泄漏样本泛化性能好,高斯混合分量可以很好地拟合数据分布并产生合理的新泄漏样本供有监督模型学习。对于SVM模型和ANN模型,在3种不同输入特征下也得到相同结果。
图表编号 | XD00203795600 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.10 |
作者 | 郭冠呈、刘书明、于喜鹏、李俊禹、马紫清、马兴科 |
绘制单位 | 清华大学环境学院、清华大学环境学院、清华大学环境学院、清华大学环境学院、清华大学环境学院、清华大学环境学院 |
更多格式 | 高清、无水印(增值服务) |