《表2 DQN算法的改进算法、解决问题和实验验证结果》
DQN算法可以通过Q值实现对环境的端对端控制,在Atari2600游戏中取得超越人类的成绩[26]。其主要不足为:不能保证一直收敛,因为这种估计目标值的算法过于乐观,高估了一些情况下的最优值,导致算法将次优行为价值认定为最优行为价值。后续对DQN的改进方法中,根据侧重点的不同,改进方向可以分为:改进训练算法、改进神经网络结构、改进学习机制、新提出RL算法这四大类,不少改进方法在解决旧问题的同时,也带来了新问题。比如:Van Hasselt等提出双价值网络的DDQN[27]被认为较好地解决了价值高估问题,但带来了新的价值低估问题,还需要进一步的研究。Anschel等[28]提出平均DQN,基于过去一定步数学习的Q值的平均,再取最大值作为新的目标值,这种方法提高了稳定性,在众多游戏测试中优于DQN和DDQN,但也带来了训练时间大、成本高的问题。DQN算法和主要扩展及其所属方法分类如表2所示。
图表编号 | XD00197464600 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.15 |
作者 | 孔松涛、刘池池、史勇、谢义、王堃 |
绘制单位 | 重庆科技学院机械与动力工程学院、重庆科技学院机械与动力工程学院、重庆科技学院机械与动力工程学院、重庆科技学院机械与动力工程学院、重庆科技学院机械与动力工程学院 |
更多格式 | 高清、无水印(增值服务) |