《表1 没有随机外力干扰的平衡杆》

《表1 没有随机外力干扰的平衡杆》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种带自适应学习率的综合随机梯度下降Q-学习方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

当ALRI-SGD方法历史梯度折扣率λ=0,即不引入ALRI-SGD方法情况下,实验中学习率α∈[0.01,0.05]时能够收敛.如α=0.01时,第16个情节就能学习成功.当α=0.06时,由于学习率过高,用于近似表示状态-动作的近似值函数持续震荡不能收敛.表现在平衡杆上,第240个情节之后,每个情节稳定在6个时间步数就会倒下.此时引入综合随机梯度,表1是α=0.06时,历史梯度折扣率λ在不同取值时,需要学习的情节数.