《表5 成功率比较:采用DDPG的双足机器人自学习步态规划方法》
图9为两种算法下机器人每平均100回合中成功步行到达的距离曲线对比。可以看到,在训练初期,上升速度较快,但学习程度不够充分,且随机性大,成功几率小。且前期为了充分遍历,找到最优策略,探索率比较高,受到环境干扰的影响,曲线波动较大,随训练次数增加,探索率减少,充分学习后,机器人由探索环境的状态逐步转为利用经验知识的状态,成功率瞬间升高并趋于稳定。2 000回合以后,机器人能步行到的距离也更加稳定,愈来愈接近于给定值。比较表5数据,可以看到两种算法在给定任务的执行力上有较大区别,在仿真的5 000回合中,用DDPG算法下机器人到达终点的次数为102次,成功率为2.04%,用改进后的DDPG算法成功次数为547次,成功率10.94%,提高了8.9个百分点。
图表编号 | XD00201634900 严禁用于非法目的 |
---|---|
绘制时间 | 2021.03.15 |
作者 | 周友行、赵晗妘、刘汉江、李昱泽、肖雨琴 |
绘制单位 | 湘潭大学机械工程学院、湘潭大学机械工程学院、湘潭大学机械工程学院、湘潭大学机械工程学院、湘潭大学机械工程学院 |
更多格式 | 高清、无水印(增值服务) |