《表5 成功率比较:采用DDPG的双足机器人自学习步态规划方法》

《表5 成功率比较:采用DDPG的双足机器人自学习步态规划方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《采用DDPG的双足机器人自学习步态规划方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

图9为两种算法下机器人每平均100回合中成功步行到达的距离曲线对比。可以看到,在训练初期,上升速度较快,但学习程度不够充分,且随机性大,成功几率小。且前期为了充分遍历,找到最优策略,探索率比较高,受到环境干扰的影响,曲线波动较大,随训练次数增加,探索率减少,充分学习后,机器人由探索环境的状态逐步转为利用经验知识的状态,成功率瞬间升高并趋于稳定。2 000回合以后,机器人能步行到的距离也更加稳定,愈来愈接近于给定值。比较表5数据,可以看到两种算法在给定任务的执行力上有较大区别,在仿真的5 000回合中,用DDPG算法下机器人到达终点的次数为102次,成功率为2.04%,用改进后的DDPG算法成功次数为547次,成功率10.94%,提高了8.9个百分点。