《表1 奖赏设置:强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究》
奖赏(R).R是与状态–动作对相关联的即时奖赏函数,我们将其定义为R(s,a),其中s∈S,a∈A,R(s,a)代表在当前状态s下执行动作a得到的即时奖赏.具体定义如表1.
图表编号 | XD00137020400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.20 |
作者 | 汪亮、王文、王禹又、侯松林、乔裕哲、吴天珩、陶先平 |
绘制单位 | 南京大学计算机软件新技术国家重点实验室、南京大学计算机软件新技术国家重点实验室、南京大学计算机软件新技术国家重点实验室、南京大学计算机软件新技术国家重点实验室、南京大学计算机软件新技术国家重点实验室、南京大学计算机软件新技术国家重点实验室、南京大学计算机软件新技术国家重点实验室 |
更多格式 | 高清、无水印(增值服务) |