《表4 行为学习的平均碰撞次数与时间花费》
图5(b)显示IRBFN-QL算法(λ=0.01)在仿真环境中第1次行为学习实验后的测试运行轨迹.表4给出本文算法在所有10次任务学习过程中的机器人平均碰撞次数、平均时间花费以及所需运行步数(近似值).机器人每次交互为1个运行步,机器人与环境的交互周期为0.3 s.根据DQN完成的2次学习任务计算机器人学习4种行为时的平均碰撞次数分别为23、55、123、50.对比发现,对于第1个行为学习,DQN的效率比本文方法略高,但是对于后面3种行为的学习,DQN的效率远低于本文方法.结合表3中的DQN的学习结果,可知DQN新学的行为会覆盖之前所学会的行为,导致下次需要该行为时,又需要重新学习.
图表编号 | XD0090089300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 胡艳明、李德才、何玉庆、韩建达 |
绘制单位 | 中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院大学、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、南开大学人工智能学院 |
更多格式 | 高清、无水印(增值服务) |