《表2 DQN算法的改进算法、解决问题和实验验证结果》

《表2 DQN算法的改进算法、解决问题和实验验证结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《深度强化学习在智能制造中的应用展望综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

DQN算法可以通过Q值实现对环境的端对端控制,在Atari2600游戏中取得超越人类的成绩[26]。其主要不足为:不能保证一直收敛,因为这种估计目标值的算法过于乐观,高估了一些情况下的最优值,导致算法将次优行为价值认定为最优行为价值。后续对DQN的改进方法中,根据侧重点的不同,改进方向可以分为:改进训练算法、改进神经网络结构、改进学习机制、新提出RL算法这四大类,不少改进方法在解决旧问题的同时,也带来了新问题。比如:Van Hasselt等提出双价值网络的DDQN[27]被认为较好地解决了价值高估问题,但带来了新的价值低估问题,还需要进一步的研究。Anschel等[28]提出平均DQN,基于过去一定步数学习的Q值的平均,再取最大值作为新的目标值,这种方法提高了稳定性,在众多游戏测试中优于DQN和DDQN,但也带来了训练时间大、成本高的问题。DQN算法和主要扩展及其所属方法分类如表2所示。