《表3 各模型在10种Atari 2600游戏中的测试结果》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于双重注意力机制的异步优势行动者评论家算法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

本文使用5种模型在Gravitar、StarGunner、TimePilot、Seaquest、Centipede、Breakout、NameThisGame、Amidar、Assault和Boxing这10种Atari2600游戏进行实验测试．Agent使用已有参数直接在这10种游戏上进行测试，每种游戏的测试共有3次试玩阶段，每次试玩共计80 000个时间步，通过计算3次试玩阶段所有情节的平均奖赏值以及情节最大奖赏值来进行游戏评估．同时，考虑到测试阶段不同情节的奖赏波动，本实验计算了5种模型最后50次情节的奖赏标准差以评估测试奖赏间的差异性．5种模型评估结果如表3所示．

图表编号	XD00134444000 严禁用于非法目的
绘制时间	2020.01.01
作者	凌兴宏、李杰、朱斐、刘全、伏玉琛
绘制单位	苏州大学计算机科学与技术学院、苏州大学江苏省计算机信息处理技术重点实验室、苏州大学计算机科学与技术学院、苏州大学江苏省计算机信息处理技术重点实验室、苏州大学计算机科学与技术学院、苏州大学江苏省计算机信息处理技术重点实验室、苏州大学计算机科学与技术学院、苏州大学江苏省计算机信息处理技术重点实验室、吉林大学符号计算与知识工程教育部重点实验室、软件新技术与产业化协同创新中心、常熟理工学院计算机科学与工程学院
更多格式	高清、无水印（增值服务）