《表2 深度递归强化学习策略算法》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于深度递归强化学习的无人自主驾驶策略研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

递归神经网络RNN可以通过反馈连接保留时间序列的信息，使得神经元可以整合当前时刻的输入和之前时刻的输出信息，常用来处理包含序列结构的信息，在自然语言处理和个性化推荐等领域得到了广泛的应用。文献[11]在2017年提出了DRQN，将RNN与DQN结合，采用单帧游戏画面输入，通过RNN结构保存之前帧的游戏信息，用于Atari游戏中的离散空间控制。在自动驾驶中，获取多时刻的状态输入可以帮助智能体更好的决策，为此本文将Actor-Critic架构与长短时网络进行结合，在Actor策略网络和Critic评价网络中分别将其中一层全连接层替换成LSTM递归网络层，替换后的actor-critic网络架构如图2所示，详细算法步骤如表2所示。

图表编号	XD00157219800 严禁用于非法目的
绘制时间	2020.04.25
作者	李志航
绘制单位	广东工业大学自动化学院
更多格式	高清、无水印（增值服务）