《表2 ppo-pen、ppo-clip及同步并行、异步并行组合训练在测试轨迹上的总回报均值》
选用ppo-pen、ppo-clip和同步并行、异步并行组合训练,输出四种方法下在测试轨迹集上的总回报均值,如表2所示。
图表编号 | XD00145300000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.25 |
作者 | 冯苏柳、姜秀华 |
绘制单位 | 中国传媒大学信息与通信工程学院、中国传媒大学信息与通信工程学院 |
更多格式 | 高清、无水印(增值服务) |
选用ppo-pen、ppo-clip和同步并行、异步并行组合训练,输出四种方法下在测试轨迹集上的总回报均值,如表2所示。
图表编号 | XD00145300000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.25 |
作者 | 冯苏柳、姜秀华 |
绘制单位 | 中国传媒大学信息与通信工程学院、中国传媒大学信息与通信工程学院 |
更多格式 | 高清、无水印(增值服务) |