《表1 训练算法伪代码:基于深度强化学习的OFDMA-PON三维资源分配研究与性能分析》

《表1 训练算法伪代码:基于深度强化学习的OFDMA-PON三维资源分配研究与性能分析》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度强化学习的OFDMA-PON三维资源分配研究与性能分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文通过很多轮迭代来训练代理中的策略网络.在每一轮迭代中,固定数量的ONU请求到达并根据策略进行资源配置.当所有ONU请求都执行完成时,本轮训练终止.表1显示了深度神经网络训练算法的伪代码.为了训练出通用的策略,训练过程中随机生成多个ONU请求集(第2行),对每个ONU请求集进行多轮探索(第3行),使用当前探索策略,以得到可能的动作概率空间,选择某一种动作,并使用产生的奖励值来进一步改进探索策略.具体地说,我们记录每轮探索所有时间步的状态,动作和奖励信息,并使用这些值来计算每一轮探索每个时间步t的累积折扣奖励.