《表1 没有随机外力干扰的平衡杆》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《一种带自适应学习率的综合随机梯度下降Q-学习方法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

当ALRI-SGD方法历史梯度折扣率λ=0，即不引入ALRI-SGD方法情况下，实验中学习率α∈[0.01，0.05]时能够收敛.如α=0.01时，第16个情节就能学习成功.当α=0.06时，由于学习率过高，用于近似表示状态-动作的近似值函数持续震荡不能收敛.表现在平衡杆上，第240个情节之后，每个情节稳定在6个时间步数就会倒下.此时引入综合随机梯度，表1是α=0.06时，历史梯度折扣率λ在不同取值时，需要学习的情节数.

图表编号	XD00102891700 严禁用于非法目的
绘制时间	2019.10.01
作者	金海东、刘全、陈冬火
绘制单位	苏州大学计算机科学与技术学院、苏州大学计算机科学与技术学院、软件新技术与产业化协同创新中心、吉林大学符号计算与知识工程教育部重点实验室、苏州大学江苏省计算机信息处理技术重点实验室、苏州大学计算机科学与技术学院
更多格式	高清、无水印（增值服务）