《表1 值函数神经网络结构参数》
本文中使用多层神经网络作为第i架无人机的确定性策略函数μiθ,即策略神经网络。策略神经网络为主神经网络,输出为无人机当前状态下的动作。为贴近现实环境,在训练时利用无人机自身的目标策略神经网络来估计其他无人机的行为策略,即目标策略神经网络的输出为各个无人机在当前状态的下一状态时的动作。如图7所示,执行模块的神经网络结构与评判模块的神经网络结构相似,结构参数与值函数神经网络相同(见表1),其中输入为单个无人机的观测量,输出为无人机的具体动作。
图表编号 | XD00193991100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.12.25 |
作者 | 陈灿、莫雳、郑多、程子恒、林德福 |
绘制单位 | 北京理工大学宇航学院、北京理工大学无人机自主控制技术北京市重点实验室、北京理工大学宇航学院、北京理工大学无人机自主控制技术北京市重点实验室、北京理工大学宇航学院、北京理工大学无人机自主控制技术北京市重点实验室、北京理工大学宇航学院、北京理工大学无人机自主控制技术北京市重点实验室、北京理工大学宇航学院、北京理工大学无人机自主控制技术北京市重点实验室 |
更多格式 | 高清、无水印(增值服务) |