《表2 在Fashion-MNIST数据集上不同优化算法的结果》

《表2 在Fashion-MNIST数据集上不同优化算法的结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于自适应学习率优化的AdaNet改进》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在收敛方面,本文的3组实验都是Adagrad优化算法收敛最快,但是Adagrad优化算法所得到结果的F1值普遍不高,这是因为Adagrad流程中式子的分母随着时间单调递增。当分母积累值过大后,收敛变得很小,导致训练后期变化幅度很小。对于SGD和Momentum,随机的特性导致了其收敛本身就不快,它们所得F1值也不高。对于RMSProp、Adam、RAdam则可以在保证较快收敛的前提下,同时得到较高的F1值。