《表1 不同贪婪度下的算法性能》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于强化学习的城市交通路径规划》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

由于使用Sarsa算法作为基础算法，其采样的策略和指导的策略都是采用的贪婪策略，这就涉及贪婪值的选取问题。为此，最优贪婪值需要设计实验来获取，保证算法性能，其他参数在贪婪值变化的过程中保持不变。在实验过程中，贪婪度在（0，1）区间取值，一些经典文献将贪婪值划分成3个区间，分别是（0，0.1]、（0.1，0.2]、（0.2，1）。将3种不同贪婪度的Dyna-Sa算法应用到有障碍地图中，进行100次迭代训练，同时使用收敛速度和碰撞次数作为评价标准。最终可以得到如表1的结果。

图表编号	XD00201777800 严禁用于非法目的
绘制时间	2021.01.10
作者	刘思嘉、童向荣
绘制单位	烟台大学计算机与控制工程学院、烟台大学计算机与控制工程学院
更多格式	高清、无水印（增值服务）