《表6 平均模型和集成模型实验结果Tab.6 Exerimental results of average model and ensemble model》
多模型平均为平均可训练参数,当模型接近收敛时,这些参数在单个模型的最后时间步长进行保存.由于使用随机梯度下降算法来优化模型,所以在每个步骤中仅使用一小批数据,导致参数可能过度适应一个小批量的数据,通过模型平均可以获得更强大的参数[19].在本实验中取同一个训练过程中验证集分数最高的前后k个模型进行平均,取k=2,3,4进行实验,最终发现k取2时效果最好,该模型记为avgbest2,但仍比单模型差(如表6所示).
图表编号 | XD0044620900 严禁用于非法目的 |
---|---|
绘制时间 | 2019.03.28 |
作者 | 周张萍、黄荣城、王博立、胡金铭、史晓东、陈毅东 |
绘制单位 | 厦门大学信息科学与技术学院、厦门大学信息科学与技术学院、厦门大学信息科学与技术学院、厦门大学信息科学与技术学院、厦门大学信息科学与技术学院、厦门大学信息科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |