《表3 各模型在10种Atari 2600游戏中的测试结果》

《表3 各模型在10种Atari 2600游戏中的测试结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于双重注意力机制的异步优势行动者评论家算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文使用5种模型在Gravitar、StarGunner、TimePilot、Seaquest、Centipede、Breakout、NameThisGame、Amidar、Assault和Boxing这10种Atari2600游戏进行实验测试.Agent使用已有参数直接在这10种游戏上进行测试,每种游戏的测试共有3次试玩阶段,每次试玩共计80 000个时间步,通过计算3次试玩阶段所有情节的平均奖赏值以及情节最大奖赏值来进行游戏评估.同时,考虑到测试阶段不同情节的奖赏波动,本实验计算了5种模型最后50次情节的奖赏标准差以评估测试奖赏间的差异性.5种模型评估结果如表3所示.