《表3(续):强化学习长短时记忆神经网络用于状态预测》
在选取动作的过程中,采用由状态集s与动作集a构成的Q表替代折扣累积奖励期望值,如表2所示。
图表编号 | XD00214814800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.10.01 |
作者 | 李锋、陈勇、汤宝平、王家序 |
绘制单位 | 四川大学机械工程学院、重庆大学机械传动国家重点实验室、四川大学空天科学与工程学院、四川大学机械工程学院、重庆大学机械传动国家重点实验室、重庆大学机械传动国家重点实验室、四川大学空天科学与工程学院 |
更多格式 | 高清、无水印(增值服务) |