《表2 视觉语言导航任务常用数据集对比》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《视觉—语言—行为:视觉语言融合研究综述》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

注:homes为数据集中涉及的房间环境；floors为数据集中涉及的楼层数；Unq Qns为环境中可能出现歧义的问题；Tol Qns为数据集中所有问题；EQA v1 url为ht-tps://embodiedqa.org/。

具身问答任务数据集主要包括三个数据集:a) Das等人开源的EQA（embodied question answering） v1数据集[17]；b) Yu等人引入多目标任务时提出的MT-EQA（multi-target EQA）数据集[20]；c) Wijmans等人将任务中的数据类型替换为点云时提出的数据集MP3D-EQA数据集[18]；后两个数据集暂时未开源。表2是三个数据集的内容对比。需要注意的是，数据集中包含被称为unique question的问题，是指可能产生歧义的问题，比如房间中同时存在两台冰箱时，问题“What room is the air conditioner located in?”就会产生歧义。

图表编号	XD00222772400 严禁用于非法目的
绘制时间	2020.11.05
作者	李睿、郑顺义、王西旗
绘制单位	武汉大学遥感信息工程学院、武汉大学遥感信息工程学院、武汉大学遥感信息工程学院
更多格式	高清、无水印（增值服务）