《表1 具身问答常用数据集对比》

《表1 具身问答常用数据集对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《视觉—语言—行为:视觉语言融合研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:可见验证集为包含关于与训练集重叠的环境的新指令;不可见验证集为验证集与训练集完全分离;R2R的URL为https://bringmeaspoon.org;R4R的URL为:

视觉语言导航任务主要包含三个数据集:a) Qi等人在提出视觉语言导航任务时开源的R2R(room-to-room)数据集[15];b) Jain等人[88]在改进任务评价方法时开源的R4R数据集;c)Qi等人[86]提出RERERE任务时建立的数据集(暂未开源)。表1是三个数据集的简单对比,从对比中可以发现,因为R4R数据集更倾向于使得智能体运动轨迹更加符合导航指令而非最短距离,因此参考路径的长度要大于最短路径的长度;而RERERE任务则倾向于使用更加简洁的指令,因此指令平均长度要小于R2R。