《表2 DQN算法的改进算法、解决问题和实验验证结果》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《深度强化学习在智能制造中的应用展望综述》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

DQN算法可以通过Q值实现对环境的端对端控制，在Atari2600游戏中取得超越人类的成绩[26]。其主要不足为：不能保证一直收敛，因为这种估计目标值的算法过于乐观，高估了一些情况下的最优值，导致算法将次优行为价值认定为最优行为价值。后续对DQN的改进方法中，根据侧重点的不同，改进方向可以分为：改进训练算法、改进神经网络结构、改进学习机制、新提出RL算法这四大类，不少改进方法在解决旧问题的同时，也带来了新问题。比如：Van Hasselt等提出双价值网络的DDQN[27]被认为较好地解决了价值高估问题，但带来了新的价值低估问题，还需要进一步的研究。Anschel等[28]提出平均DQN，基于过去一定步数学习的Q值的平均，再取最大值作为新的目标值，这种方法提高了稳定性，在众多游戏测试中优于DQN和DDQN，但也带来了训练时间大、成本高的问题。DQN算法和主要扩展及其所属方法分类如表2所示。

图表编号	XD00197464600 严禁用于非法目的
绘制时间	2021.01.15
作者	孔松涛、刘池池、史勇、谢义、王堃
绘制单位	重庆科技学院机械与动力工程学院、重庆科技学院机械与动力工程学院、重庆科技学院机械与动力工程学院、重庆科技学院机械与动力工程学院、重庆科技学院机械与动力工程学院
更多格式	高清、无水印（增值服务）