《表5 基于模型逆强化学习方法的优点和局限性》

《表5 基于模型逆强化学习方法的优点和局限性》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《模仿学习方法综述及其在机器人领域的应用》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

文献[63]使用的是增强方法,这些算法可以通过组合监督学习算法来创造更好的非线性成本函数。但是多种算法同时学习,计算量增加。文献[68]运用此方法从示教中学习运动策略。文献[72-73]提出IRL成本函数的深度神经网络方法。此方法基于最大熵方法,并且使用反馈变量从示教中学习复杂的成本函数。文献[74]提出使用基于最大熵原理的高斯过程方法,IRL的高斯过程方法中的奖励函数关于特征是非线性的。文献[64]基于非线性成本函数方法[72],使用自适应采样方法的策略优化步骤。最近,生成对抗网络[75]已经引入到IRL中[64-65]。在生成对抗网络中,一个生成模型G训练一个用于模仿真实数据分布的生成数据样本,而判别器D用于判别数据是否是真实数据。这一工作表明优化过程扮演生成器的角色,学习的成本函数作为判别器的角色。生成对抗模仿学习框架图如图4所示。文献[54]把生成对抗模仿学习方法扩展到基于模型方法中,提出使用一个前向模型来训练一个完全可微分的随机策略。实验结果表明,在连续的控制任务中,基于模型的生成对抗模仿学习的性能优于无模型的生成对抗模仿学习。但是,由于一些情况下生成对抗网络收敛性差而难以训练,模型过于自由、难于控制也是此算法的难点。文献[76]仅从观察示教中学习策略,先建立逆动力学模型,然后从示教中学习策略。表5总结了本文中基于模型逆强化学习方法的优点和局限性。