《表1 符号表:模仿学习方法综述及其在机器人领域的应用》
在引入机器学习的相关知识之前,首先介绍本文出现的一些符号。专家示教常常作为一组轨迹给出,轨迹的数据集为D={τ0,τ1,?,τm};使用q代表专家策略概率分布;p代表学徒策略概率分布;x代表系统状态;u表示动作;s表示上下文;T代表有限时间步长,单个轨迹时间步的总数量为T+1。其中,上下文s代表不同的任务场景,可以是系统初始状态x0,或者相关对象的状态。表1总结了本文符号。
图表编号 | XD0035438300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.02.15 |
作者 | 李帅龙、张会文、周维佳 |
绘制单位 | 中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院大学、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院、中国科学院大学、中国科学院沈阳自动化研究所机器人学国家重点实验室、中国科学院机器人与智能制造创新研究院 |
更多格式 | 高清、无水印(增值服务) |