《表3 有障碍地图实验结果》

《表3 有障碍地图实验结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于强化学习的城市交通路径规划》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了更好地展示算法性能,方便读者阅读,将整个迭代过程进行分割。在无障碍环境中,图6(a)部分表示前25回合算法收敛情况,可以得出:所有算法在17回合后都已经收敛;Dyna-Sa算法和Dyna-Q算法收敛速度相似,远优于不使用Dyna框架的算法。图6(b)部分表示26回合到100回合的算法收敛情况,可以得出:所有算法都收敛,没有异常情况出现。图7(a)、(b)、(c)分别表示前30回合、31~70回合、71~100回合有障碍环境算法收敛情况,所有算法都呈现同一趋势:首先步数较少,然后突然升高,最终趋于平稳。原因是在有障碍物的环境中,智能体首先尝试碰撞障碍物获取环境状态,步数较少,然后在躲避障碍物的过程,产生大量的步数,最终产生一条通往目标状态的完整路径,达到收敛状态。Sarsa算法在整个过程无法收敛;Q-Learning算法在37回合后能够达到收敛;Dyna-Q算法和Dyna-Sa算法分别在24回合和18回合达到收敛。Dyna-Sa是一种风险敏感算法,所以迭代产生平均步数较多。