《表1 基于强化学习的功率与信道联合干扰算法》

《表1 基于强化学习的功率与信道联合干扰算法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于强化学习的功率与信道联合干扰方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

策略学习更新阶段:干扰机通过当前时隙获得的奖励值更新Q值表,并且根据更新后的Q值表通过玻尔兹曼更新策略决策出下一时隙的干扰信道。干扰机在之后每一个时隙都经历相同的决策过程,并不断更新Q值表。通过不断训练Q值表强化对环境的认知,最终在复杂动态变化的环境下干扰机可以决策出最佳干扰策略。本文提出的信道与功率联合干扰决策算法如表1所示。