《表2 视觉语言导航任务常用数据集对比》

《表2 视觉语言导航任务常用数据集对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《视觉—语言—行为:视觉语言融合研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:homes为数据集中涉及的房间环境;floors为数据集中涉及的楼层数;Unq Qns为环境中可能出现歧义的问题;Tol Qns为数据集中所有问题;EQA v1 url为ht-tps://embodiedqa.org/。

具身问答任务数据集主要包括三个数据集:a) Das等人开源的EQA(embodied question answering) v1数据集[17];b) Yu等人引入多目标任务时提出的MT-EQA(multi-target EQA)数据集[20];c) Wijmans等人将任务中的数据类型替换为点云时提出的数据集MP3D-EQA数据集[18];后两个数据集暂时未开源。表2是三个数据集的内容对比。需要注意的是,数据集中包含被称为unique question的问题,是指可能产生歧义的问题,比如房间中同时存在两台冰箱时,问题“What room is the air conditioner located in?”就会产生歧义。