《表3 3种算法的学习结果》
为了充分展示IRBFN-QL算法的有效性,本文在图5(a)所示的仿真环境中,对DQN算法、基于KRLS的IRBFN-QL算法(也即,L2正则化约束加权系数λ=0)、以及基于L2KRLS的IRBFN-QL算法(在本文实验中取λ=0.01)分别进行10次行为学习实验,若运行次数大于1万步仍未完成学习,则判定学习失败;若在1万步前完成学习任务,但在测试阶段发生碰撞,则同样判定学习失败.表3显示了3种算法的最终学习结果.
图表编号 | XD0090089100 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 胡艳明、李德才、何玉庆、韩建达 |
绘制单位 | 中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院大学、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、南开大学人工智能学院 |
更多格式 | 高清、无水印(增值服务) |