《表4 行为学习的平均碰撞次数与时间花费》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于增量式RBF网络的Q学习算法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

图5（b）显示IRBFN-QL算法（λ=0.01）在仿真环境中第1次行为学习实验后的测试运行轨迹.表4给出本文算法在所有10次任务学习过程中的机器人平均碰撞次数、平均时间花费以及所需运行步数（近似值）.机器人每次交互为1个运行步，机器人与环境的交互周期为0.3 s.根据DQN完成的2次学习任务计算机器人学习4种行为时的平均碰撞次数分别为23、55、123、50.对比发现，对于第1个行为学习，DQN的效率比本文方法略高，但是对于后面3种行为的学习，DQN的效率远低于本文方法.结合表3中的DQN的学习结果，可知DQN新学的行为会覆盖之前所学会的行为，导致下次需要该行为时，又需要重新学习.

图表编号	XD0090089300 严禁用于非法目的
绘制时间	2019.09.01
作者	胡艳明、李德才、何玉庆、韩建达
绘制单位	中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院大学、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、南开大学人工智能学院
更多格式	高清、无水印（增值服务）