《表5 基于模型逆强化学习方法的优点和局限性》
文献[63]使用的是增强方法,这些算法可以通过组合监督学习算法来创造更好的非线性成本函数。但是多种算法同时学习,计算量增加。文献[68]运用此方法从示教中学习运动策略。文献[72-73]提出IRL成本函数的深度神经网络方法。此方法基于最大熵方法,并且使用反馈变量从示教中学习复杂的成本函数。文献[74]提出使用基于最大熵原理的高斯过程方法,IRL的高斯过程方法中的奖励函数关于特征是非线性的。文献[64]基于非线性成本函数方法[72],使用自适应采样方法的策略优化步骤。最近,生成对抗网络[75]已经引入到IRL中[64-65]。在生成对抗网络中,一个生成模型G训练一个用于模仿真实数据分布的生成数据样本,而判别器D用于判别数据是否是真实数据。这一工作表明优化过程扮演生成器的角色,学习的成本函数作为判别器的角色。生成对抗模仿学习框架图如图4所示。文献[54]把生成对抗模仿学习方法扩展到基于模型方法中,提出使用一个前向模型来训练一个完全可微分的随机策略。实验结果表明,在连续的控制任务中,基于模型的生成对抗模仿学习的性能优于无模型的生成对抗模仿学习。但是,由于一些情况下生成对抗网络收敛性差而难以训练,模型过于自由、难于控制也是此算法的难点。文献[76]仅从观察示教中学习策略,先建立逆动力学模型,然后从示教中学习策略。表5总结了本文中基于模型逆强化学习方法的优点和局限性。
图表编号 | XD0035438500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.02.15 |
作者 | 李帅龙、张会文、周维佳 |
绘制单位 | 中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院大学、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院大学、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院 |
更多格式 | 高清、无水印(增值服务) |