《表2 DQN和A3C系列模型的每步训练时间》

《表2 DQN和A3C系列模型的每步训练时间》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于双重注意力机制的异步优势行动者评论家算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
(单位:ms/步)

本文比较了DQN与A3C系列算法在训练Agent玩部分Atari 2600游戏的每步训练时间,涉及的游戏包括Gravitar、StarGunner、TimePilot、Seaquest、Centipede、Breakout、NameThisGame、Amidar、Assault和Boxing,10种游戏的简要介绍如表1所示.在Intel Core i7-6800kCPU上DQN和A3C系列算法的训练时间如表2所示.表2数据展示了通过使用异步方法的4种A3C算法的每步训练时间相差不大,而传统DQN算法比A3C系列算法多耗费几倍的训练时间.由此可见,A3C系列算法在保证性能的情况下,利用异步方法极大缩短了模型的训练时间.