《表6 平均模型和集成模型实验结果Tab.6 Exerimental results of average model and ensemble model》

《表6 平均模型和集成模型实验结果Tab.6 Exerimental results of average model and ensemble model》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于增量式自学习策略的多语言翻译模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

多模型平均为平均可训练参数,当模型接近收敛时,这些参数在单个模型的最后时间步长进行保存.由于使用随机梯度下降算法来优化模型,所以在每个步骤中仅使用一小批数据,导致参数可能过度适应一个小批量的数据,通过模型平均可以获得更强大的参数[19].在本实验中取同一个训练过程中验证集分数最高的前后k个模型进行平均,取k=2,3,4进行实验,最终发现k取2时效果最好,该模型记为avgbest2,但仍比单模型差(如表6所示).