《表4 行为学习的平均碰撞次数与时间花费》

《表4 行为学习的平均碰撞次数与时间花费》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于增量式RBF网络的Q学习算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

图5(b)显示IRBFN-QL算法(λ=0.01)在仿真环境中第1次行为学习实验后的测试运行轨迹.表4给出本文算法在所有10次任务学习过程中的机器人平均碰撞次数、平均时间花费以及所需运行步数(近似值).机器人每次交互为1个运行步,机器人与环境的交互周期为0.3 s.根据DQN完成的2次学习任务计算机器人学习4种行为时的平均碰撞次数分别为23、55、123、50.对比发现,对于第1个行为学习,DQN的效率比本文方法略高,但是对于后面3种行为的学习,DQN的效率远低于本文方法.结合表3中的DQN的学习结果,可知DQN新学的行为会覆盖之前所学会的行为,导致下次需要该行为时,又需要重新学习.