《表1 参数设置:基于深度强化学习的移动机器人路径规划》

《表1 参数设置:基于深度强化学习的移动机器人路径规划》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度强化学习的移动机器人路径规划》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在本文中,Turtlebot的速度设置为向前3 m/s,其他方向0.05 m/s,w=0.03 rad/s。IDDDQN方法参数设置如表1所示,其中探索因子ε初始值为1,ε∈(0.05,1)随着机器人迭代次数的增加线性递减。网络中采用均方根的随机梯度下降方法(RMSProp)更新参数,其中动量系数设置为0.95。每次通过重采样优选机制从缓存记忆单元D中按概率抽mini-batch大小为64的样本更新网络。奖赏值设置如公式(10)所示: