《表1 奖赏设置:强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究》

《表1 奖赏设置:强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

奖赏(R).R是与状态–动作对相关联的即时奖赏函数,我们将其定义为R(s,a),其中s∈S,a∈A,R(s,a)代表在当前状态s下执行动作a得到的即时奖赏.具体定义如表1.