《表3 四种不同的时间序列长度在测试轨迹上的总回报均值》
输入状态的时间序列长度slen分别设置为1,4,8,16,采用ppo-clip及同步并行训练,输出这四种设置在测试轨迹上的总回报均值,如表3所示。
图表编号 | XD00145299800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.25 |
作者 | 冯苏柳、姜秀华 |
绘制单位 | 中国传媒大学信息与通信工程学院、中国传媒大学信息与通信工程学院 |
更多格式 | 高清、无水印(增值服务) |
输入状态的时间序列长度slen分别设置为1,4,8,16,采用ppo-clip及同步并行训练,输出这四种设置在测试轨迹上的总回报均值,如表3所示。
图表编号 | XD00145299800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.25 |
作者 | 冯苏柳、姜秀华 |
绘制单位 | 中国传媒大学信息与通信工程学院、中国传媒大学信息与通信工程学院 |
更多格式 | 高清、无水印(增值服务) |