《表1 Cart Pole任务成功次数统计表》

《表1 Cart Pole任务成功次数统计表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于残差梯度法的神经网络Q学习算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

对比算法选择常规的随机梯度下降法(SGD with Re LU)和小批量梯度下降法(MBGD with Re LU)。为了尽可能获得有效数据,每种算法实验4次,并且实验过程中保持其他参数不变。设置episode为3 000,每100个episode记为一次训练,取其平均奖励值作为训练结果,则三种算法的最终任务完成效果如图6所示,统计结果见表1。其中,图6为三种算法在4次实验中的训练平均得分分布,表1为训练成功次数统计。