《表2 深度递归强化学习策略算法》
递归神经网络RNN可以通过反馈连接保留时间序列的信息,使得神经元可以整合当前时刻的输入和之前时刻的输出信息,常用来处理包含序列结构的信息,在自然语言处理和个性化推荐等领域得到了广泛的应用。文献[11]在2017年提出了DRQN,将RNN与DQN结合,采用单帧游戏画面输入,通过RNN结构保存之前帧的游戏信息,用于Atari游戏中的离散空间控制。在自动驾驶中,获取多时刻的状态输入可以帮助智能体更好的决策,为此本文将Actor-Critic架构与长短时网络进行结合,在Actor策略网络和Critic评价网络中分别将其中一层全连接层替换成LSTM递归网络层,替换后的actor-critic网络架构如图2所示,详细算法步骤如表2所示。
图表编号 | XD00157219800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.25 |
作者 | 李志航 |
绘制单位 | 广东工业大学自动化学院 |
更多格式 | 高清、无水印(增值服务) |