《表1 Q学习算法伪代码》
自主体的一个特点是自适应学习。调整自主体或者说指导自主体从环境中学习知识的算法,称之为强化学习(Reinforcement Learning)。自主体的自适应学习需要强化学习的帮助,DQN(Deep Q-Network)算法就是这么一种强化学习算法,它最为经典的前身,是Watkins提出的Q学习(Q-learning)算法[12]。算法伪代码如表1所示。
图表编号 | XD0058941400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.03.01 |
作者 | 李睿、王铮 |
绘制单位 | 华东师范大学地理信息科学教育部重点实验室、华东师范大学地理信息科学教育部重点实验室、中国科学院科技政策与管理科学研究所 |
更多格式 | 高清、无水印(增值服务) |