《表4 平均每步奖赏值对比》

《表4 平均每步奖赏值对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于改进的DQN机器人路径规划》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

mi,纵坐标的值为(1i=∑100mi/ni)/100。在5000次迭代中,机器人执行某一动作所能获得的平均奖赏值(保留3位小数)对比数据见表4。