《表1 Q-learning与LSPI算法规划结果对比表》

《表1 Q-learning与LSPI算法规划结果对比表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于最小二乘策略迭代的无人机航迹规划方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由于目前采用与LSPI相关的强化学习方法进行无人机航迹规划的研究较少,因此采用强化学习中应用相对广泛的Q学习算法作为对比算法验证LSPI算法在无人机航迹规划中的有效性。图4为LSPI算法与Q学习算法的实验结果对比图,其中横坐标为情节数,纵坐标表示每一情节对应的运行步数。从图中可以看出,在收敛速度和收敛结果方面LSPI算法都要优于Q学习算法,且收敛更加稳定。图5给出了Q学习算法与LSPI算法规划的三维航迹对比图,其中黑虚线为算法规划出的航迹,红实线表示的是将算法规划结果用于UAV气动模型得到的仿真飞行曲线。具体统计数据见表1。由图5及表1可知,两种算法都能实现避障,但LSPI算法的规划时间及航迹长度更短。虽然LSPI算法规划的航迹转弯与起伏动作次数较多,但总的转弯角度和小,转弯幅度小,更利于飞机实际飞行。Q学习算法中采用查询表的形式存储策略,对状态空间进行离散化处理,状态是离散有限的,无人机的位置只能是离散化后的状态空间中的位置,若离散尺度偏大,计算出的航迹点间的距离就较长,无法保证无人机的平滑飞行。LSPI算法中依据函数逼近器计算策略,函数是连续的,无人机可以到达状态空间中的任意位置,只要动作设置合理,航迹点间的航迹长度就可以保证无人机平滑飞行。