《表1 RL模型Reward值设置情况》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于强化学习的资源最优化逻辑拓扑映射算法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

算法目标是在确保所请求的每条逻辑通道映射成功的同时，尽可能减少O/E端口的数量。对应地，本文所提算法是在保障所有逻辑通道成功映射的情况下进行端口数的优化。为此，算法在执行的过程中需为RL模型设置适当的Reward机制，以指导算法在逻辑拓扑映射期间减少端口数量。例如，在为通道分配波长资源时不增加新端口的Reward值大于增加新端口的Reward值。通过训练，RL模型将趋向于执行正确行动以获得更高的回报。对于不同的目标，Reward机制的设计也应该有所不同。在不同条件下对不同行为的Reward值如表1所示。

图表编号	XD00155678200 严禁用于非法目的
绘制时间	2020.06.15
作者	王亚男、杨雪、庄浩涛、朱敏、康乐、赵永利
绘制单位	中国电力科学研究院有限公司、国网四川省电力公司、北京邮电大学信息光子学与光通信国家重点实验室、国网四川省电力公司、国网四川省电力公司、北京邮电大学信息光子学与光通信国家重点实验室
更多格式	高清、无水印（增值服务）