《表1 基于模仿学习算法的自动驾驶模型训练环境、数据集和方法》
注:BDDV为Berkeley Deep Drive Video dataset,Sim4CV为A Photo-Realistic Simulator for Computer Vision Applications,TROCS为The Open Racing Care Simulator,CARLA为Center for Advanced Research on Language Acquisition。
为了达到模仿学习模型的训练目的,有两种设置可以应用(Attia和Dayan,2018):一种是被动设置,即向智能体提供按照最优策略执行全轨迹的训练集;另一种是主动设置,即允许智能体向专家提出动作查询,专家在特定时间内返回所需执行的动作。对应的两种较为流行的模仿学习的方法分别是行为克隆(behavioral cloning,BC)和DAgger。本文从行为克隆、DAgger的衍生模型以及其他方法3个方面介绍模仿学习。表1总结了模仿学习算法的部分应用。
图表编号 | XD00215915600 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.16 |
作者 | 刘旖菲、胡学敏、陈国文、刘士豪、陈龙 |
绘制单位 | 湖北大学计算机与信息工程学院、湖北大学计算机与信息工程学院、湖北大学计算机与信息工程学院、湖北大学计算机与信息工程学院、中山大学数据科学与计算机学院 |
更多格式 | 高清、无水印(增值服务) |