《表2 深度递归强化学习策略算法》

《表2 深度递归强化学习策略算法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度递归强化学习的无人自主驾驶策略研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

递归神经网络RNN可以通过反馈连接保留时间序列的信息,使得神经元可以整合当前时刻的输入和之前时刻的输出信息,常用来处理包含序列结构的信息,在自然语言处理和个性化推荐等领域得到了广泛的应用。文献[11]在2017年提出了DRQN,将RNN与DQN结合,采用单帧游戏画面输入,通过RNN结构保存之前帧的游戏信息,用于Atari游戏中的离散空间控制。在自动驾驶中,获取多时刻的状态输入可以帮助智能体更好的决策,为此本文将Actor-Critic架构与长短时网络进行结合,在Actor策略网络和Critic评价网络中分别将其中一层全连接层替换成LSTM递归网络层,替换后的actor-critic网络架构如图2所示,详细算法步骤如表2所示。