《表4 阈值选择及模型在测试中的性能》
模型1的输出值表征了一个问题报告是否是重复报告的概率,在应用该模型做判定前还要设置一个阈值当模型的输出大于这个阈值时,即判定该问题报告是重复的.为了选取合适的阈值,我们对输入训练集得到的输出的分布进行统计,每10%分位点取一个值(即10%,20%,30%,…,90%分位数)作为9个候选的阈值,利用测试集分别评估选取不同阈值时模型的性能,模型的性能以F1-score,即准确率与召回率的调和平均数的两倍来度量表4展示了在不同阈值下模型的性能,从中我们可以看到,在阈值为0.214 2(60%分位点)时,模型性能达到最优.
图表编号 | XD0073049200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.07.01 |
作者 | 朱家鑫、周明辉 |
绘制单位 | 北京大学信息科学技术学院软件研究所、高可信软件技术教育部重点实验室(北京大学)、中国科学院软件研究所软件工程技术研究开发中心、北京大学信息科学技术学院软件研究所、高可信软件技术教育部重点实验室(北京大学) |
更多格式 | 高清、无水印(增值服务) |