《表1 没有随机外力干扰的平衡杆》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种带自适应学习率的综合随机梯度下降Q-学习方法》
当ALRI-SGD方法历史梯度折扣率λ=0,即不引入ALRI-SGD方法情况下,实验中学习率α∈[0.01,0.05]时能够收敛.如α=0.01时,第16个情节就能学习成功.当α=0.06时,由于学习率过高,用于近似表示状态-动作的近似值函数持续震荡不能收敛.表现在平衡杆上,第240个情节之后,每个情节稳定在6个时间步数就会倒下.此时引入综合随机梯度,表1是α=0.06时,历史梯度折扣率λ在不同取值时,需要学习的情节数.
图表编号 | XD00102891700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.01 |
作者 | 金海东、刘全、陈冬火 |
绘制单位 | 苏州大学计算机科学与技术学院、苏州大学计算机科学与技术学院、软件新技术与产业化协同创新中心、吉林大学符号计算与知识工程教育部重点实验室、苏州大学江苏省计算机信息处理技术重点实验室、苏州大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |