《表1 训练完成后的不同模型在战略性游戏上的测试得分》

《表1 训练完成后的不同模型在战略性游戏上的测试得分》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于线性动态跳帧的深度双Q网络》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

测试得分结果如表1所示,根据平均得分和最高得分的数据,均可以看出:与其余三种算法相比,训练完成后的LDF-IPER-DDQN在指导Agent进行这8种游戏时的得分都高于其它三种算法.特别地,在SpaceInvaders和Berzerk这两个游戏中性能提升地非常明显.这充分证实了我们的猜想,LDF-IP-ER-DDQN不仅仅能够在训练过程中表现得很好,在训练完成完成后的测试阶段也优于其余算法模型.总而言之,与训练过程类似,针对这8种游戏,四种算法的性能基本保持了LDF-IPER-DDQN>LDF-PER-DDQN>DF-PER-DDQN>PER-DDQN的态势.5.3实验总结