《表1 不同环境下机械臂避障抓捕成功率》

《表1 不同环境下机械臂避障抓捕成功率》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度Q学习的工业机械臂路径规划方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

实际在训练完成后的测试中,机械臂避障抓取的成功率要高于训练收敛时的成功率,因为在训练时由于探索的需要,算法在每一步选择动作时都有的概率随机选择动作,因此此时的策略并不是学习到的最优策略。实际测试过程中机械臂避障抓捕的成功率见表1。笔者同时对策略梯度法进行实验以作比较,测试结果见表2。在相同测试环境下,由于策略梯度法学习策略的随机性,其测试成功率明显低于深度Q学习方法,从而验证了在机械臂避障抓捕问题上,深度Q学习算法相比其他算法的优越性。