《表1 训练算法伪代码：基于深度强化学习的OFDMA-PON三维资源分配研究与性能分析》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于深度强化学习的OFDMA-PON三维资源分配研究与性能分析》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

本文通过很多轮迭代来训练代理中的策略网络．在每一轮迭代中，固定数量的ONU请求到达并根据策略进行资源配置．当所有ONU请求都执行完成时，本轮训练终止．表1显示了深度神经网络训练算法的伪代码．为了训练出通用的策略，训练过程中随机生成多个ONU请求集（第2行），对每个ONU请求集进行多轮探索（第3行），使用当前探索策略，以得到可能的动作概率空间，选择某一种动作，并使用产生的奖励值来进一步改进探索策略．具体地说，我们记录每轮探索所有时间步的状态，动作和奖励信息，并使用这些值来计算每一轮探索每个时间步t的累积折扣奖励．

图表编号	XD00172561400 严禁用于非法目的
绘制时间	2020.12.25
作者	陈斌、顾家骅、朱敏、晏春平、周怡君、顾萍萍
绘制单位	东南大学电子科学与工程学院、东南大学移动通信国家重点实验室、东南大学移动通信国家重点实验室、太仓市同维电子有限公司、东南大学机械工程学院、太仓市同维电子有限公司
更多格式	高清、无水印（增值服务）