《表1 网络参数的设定值:基于神经网络的强化学习在服务机器人导航中的研究》

《表1 网络参数的设定值:基于神经网络的强化学习在服务机器人导航中的研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于神经网络的强化学习在服务机器人导航中的研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在学习的初始阶段,Q值是随机设定的,为了探索到所有的动作,采用ε-Greedy探索策略选取动作,以1-ε的概率选择最大Q值对应的动作,以ε的概率随机选择任一动作,随着学习的不断进行,逐渐降低ε的大小。网络中各个参数的设定值如表1所示。