《表1 不同算法在各个测试轨迹的总回报均值》
采用PPO-clip的算法,且同步并行训练。输出本课题算法及现有算法在测试轨迹集上的总回报均值,如表1所示。
图表编号 | XD00145299600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.25 |
作者 | 冯苏柳、姜秀华 |
绘制单位 | 中国传媒大学信息与通信工程学院、中国传媒大学信息与通信工程学院 |
更多格式 | 高清、无水印(增值服务) |
采用PPO-clip的算法,且同步并行训练。输出本课题算法及现有算法在测试轨迹集上的总回报均值,如表1所示。
图表编号 | XD00145299600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.25 |
作者 | 冯苏柳、姜秀华 |
绘制单位 | 中国传媒大学信息与通信工程学院、中国传媒大学信息与通信工程学院 |
更多格式 | 高清、无水印(增值服务) |