《表9 探索到所有可解状态时的耗时》
SA-RL算法运行5次探索到所有可解状态数时的耗时如表9所示.从表中可以看出当探索到所有可解状态时,Q-learning、Sarsa较Sarsa (λ)、Q (λ)而言耗时较短,原因是Sarsa(λ)、Q (λ)算法进行学习时不仅要对遍历过状态的状态-动作表进行更新,还要对效用迹矩阵进行更新,随着状态空间的增大,算法所要更新的表空间不断增加,因此耗时较长.
图表编号 | XD00213659600 严禁用于非法目的 |
---|---|
绘制时间 | 2021.03.01 |
作者 | 林凯、卢宇、陈星、林兵 |
绘制单位 | 福建师范大学物理与能源学院、福建师范大学物理与能源学院、福州大学数学与计算机科学学院、福建师范大学物理与能源学院 |
更多格式 | 高清、无水印(增值服务) |