《表4 求解迭代总次数比较》

《表4 求解迭代总次数比较》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《采用DDPG的双足机器人自学习步态规划方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

图8为两种算法每平均100回合中所取得平均累积奖励曲线对比,累积奖励越高,代表机器人按照期待的目标选出来更优的动作。从图上看来,两条曲线都呈递增趋势,且当训练回合超过某一定值后,均趋于稳定。但是比较表4数据,DDPG算法用了4 323回合到达最大累积奖励,而改进后的DDPG算法迭代2 037次即到达最大累积奖励,比前者提升了45.7%。可见,RBF改进后的DDPG算法具有更高的效率。