《表1 网络结构:基于动作空间噪声的深度Q网络学习》
Breakou游戏是小球击打砖块,从下方击打上方砖块,每成功击打一次就获得一个奖赏[9];Pong游戏是双方来回对打,接到球并打回去就获得一个奖赏。在训练游戏时,需要预处理操作来剔除不重要的信息。不但可以减少训练的计算量,还增加了提取特征信息的准确性。在Atari 2600游戏集中,游戏原始画面的输入尺寸为210×160×3,首先对其进行裁剪并将原始RGB图像转换成灰度图。最终可以被观测的游戏屏幕区域为84×84的灰度图。然后采用距离当前时刻最近的4帧预处理画面作为卷积神经网络的输入。采用三层卷积网络和两层噪声层,具体结构如表1所示。
图表编号 | XD00144847100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.08.01 |
作者 | 吴夏铭、李明秋、陈恩志、王春阳 |
绘制单位 | 长春理工大学电子信息工程学院、长春理工大学电子信息工程学院、长春理工大学电子信息工程学院、长春理工大学电子信息工程学院 |
更多格式 | 高清、无水印(增值服务) |