《表1 训练算法伪代码:基于深度强化学习的OFDMA-PON三维资源分配研究与性能分析》
![《表1 训练算法伪代码:基于深度强化学习的OFDMA-PON三维资源分配研究与性能分析》](http://bookimg.mtoou.info/tubiao/gif/TALK202006005_03100.gif)
本系列图表出处文件名:随高清版一同展现
《基于深度强化学习的OFDMA-PON三维资源分配研究与性能分析》
本文通过很多轮迭代来训练代理中的策略网络.在每一轮迭代中,固定数量的ONU请求到达并根据策略进行资源配置.当所有ONU请求都执行完成时,本轮训练终止.表1显示了深度神经网络训练算法的伪代码.为了训练出通用的策略,训练过程中随机生成多个ONU请求集(第2行),对每个ONU请求集进行多轮探索(第3行),使用当前探索策略,以得到可能的动作概率空间,选择某一种动作,并使用产生的奖励值来进一步改进探索策略.具体地说,我们记录每轮探索所有时间步的状态,动作和奖励信息,并使用这些值来计算每一轮探索每个时间步t的累积折扣奖励.
图表编号 | XD00172561400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.12.25 |
作者 | 陈斌、顾家骅、朱敏、晏春平、周怡君、顾萍萍 |
绘制单位 | 东南大学电子科学与工程学院、东南大学移动通信国家重点实验室、东南大学移动通信国家重点实验室、太仓市同维电子有限公司、东南大学机械工程学院、太仓市同维电子有限公司 |
更多格式 | 高清、无水印(增值服务) |