《表1 网络参数的设定值:基于神经网络的强化学习在服务机器人导航中的研究》
在学习的初始阶段,Q值是随机设定的,为了探索到所有的动作,采用ε-Greedy探索策略选取动作,以1-ε的概率选择最大Q值对应的动作,以ε的概率随机选择任一动作,随着学习的不断进行,逐渐降低ε的大小。网络中各个参数的设定值如表1所示。
图表编号 | XD00174763100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.25 |
作者 | 陈双、李龙、罗海南 |
绘制单位 | 芜湖哈特机器人产业技术研究院有限公司、芜湖哈特机器人产业技术研究院有限公司、芜湖哈特机器人产业技术研究院有限公司 |
更多格式 | 高清、无水印(增值服务) |