《表2 动作值:基于动态延迟策略更新的TD3算法》
观测结果如表1和表2所示。由表1可见,智能体的观测值(Observation),即环境的状态空间(State)为3维连续值,动作空间(Action)为1维的连续值。
图表编号 | XD00146084800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.01 |
作者 | 康朝海、孙超、荣垂霆、刘鹏云 |
绘制单位 | 东北石油大学电气信息工程学院、东北石油大学电气信息工程学院、东北石油大学电气信息工程学院、东北石油大学电气信息工程学院 |
更多格式 | 高清、无水印(增值服务) |