《表1 符号表:模仿学习方法综述及其在机器人领域的应用》

《表1 符号表:模仿学习方法综述及其在机器人领域的应用》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《模仿学习方法综述及其在机器人领域的应用》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在引入机器学习的相关知识之前,首先介绍本文出现的一些符号。专家示教常常作为一组轨迹给出,轨迹的数据集为D={τ0,τ1,?,τm};使用q代表专家策略概率分布;p代表学徒策略概率分布;x代表系统状态;u表示动作;s表示上下文;T代表有限时间步长,单个轨迹时间步的总数量为T+1。其中,上下文s代表不同的任务场景,可以是系统初始状态x0,或者相关对象的状态。表1总结了本文符号。