《表1 不同贪婪度下的算法性能》

《表1 不同贪婪度下的算法性能》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于强化学习的城市交通路径规划》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由于使用Sarsa算法作为基础算法,其采样的策略和指导的策略都是采用的贪婪策略,这就涉及贪婪值的选取问题。为此,最优贪婪值需要设计实验来获取,保证算法性能,其他参数在贪婪值变化的过程中保持不变。在实验过程中,贪婪度在(0,1)区间取值,一些经典文献将贪婪值划分成3个区间,分别是(0,0.1]、(0.1,0.2]、(0.2,1)。将3种不同贪婪度的Dyna-Sa算法应用到有障碍地图中,进行100次迭代训练,同时使用收敛速度和碰撞次数作为评价标准。最终可以得到如表1的结果。