《表1 不同贪婪度下的算法性能》
由于使用Sarsa算法作为基础算法,其采样的策略和指导的策略都是采用的贪婪策略,这就涉及贪婪值的选取问题。为此,最优贪婪值需要设计实验来获取,保证算法性能,其他参数在贪婪值变化的过程中保持不变。在实验过程中,贪婪度在(0,1)区间取值,一些经典文献将贪婪值划分成3个区间,分别是(0,0.1]、(0.1,0.2]、(0.2,1)。将3种不同贪婪度的Dyna-Sa算法应用到有障碍地图中,进行100次迭代训练,同时使用收敛速度和碰撞次数作为评价标准。最终可以得到如表1的结果。
图表编号 | XD00201777800 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.10 |
作者 | 刘思嘉、童向荣 |
绘制单位 | 烟台大学计算机与控制工程学院、烟台大学计算机与控制工程学院 |
更多格式 | 高清、无水印(增值服务) |