《表1 网络结构:基于动作空间噪声的深度Q网络学习》

《表1 网络结构:基于动作空间噪声的深度Q网络学习》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于动作空间噪声的深度Q网络学习》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

Breakou游戏是小球击打砖块,从下方击打上方砖块,每成功击打一次就获得一个奖赏[9];Pong游戏是双方来回对打,接到球并打回去就获得一个奖赏。在训练游戏时,需要预处理操作来剔除不重要的信息。不但可以减少训练的计算量,还增加了提取特征信息的准确性。在Atari 2600游戏集中,游戏原始画面的输入尺寸为210×160×3,首先对其进行裁剪并将原始RGB图像转换成灰度图。最终可以被观测的游戏屏幕区域为84×84的灰度图。然后采用距离当前时刻最近的4帧预处理画面作为卷积神经网络的输入。采用三层卷积网络和两层噪声层,具体结构如表1所示。