《表1 图像描述常用数据集》
我们整理了一些用于图像描述问题研究的比较经典的数据库,列于表1。近两年,许多经典的传统数据集都加入了不少新的内容条目,如Image Net(谷歌、CMU、Cornell大学合作完成的Open Images,目前已有第五个版本,包含约九百万张带有多标签的图像,横跨了大约6千个类别,涵盖范畴是之前Image Net的6倍)、COCO、CIFARs、SBU以及MNIST。当然,也有一批新的数据集进入了研究领域,如加州大学圣地亚哥分校和Adobe提出的Stock3M数据集包含3217654个用户在一个股票网站上上传的图片,每个图片都与一个描述相关,描述的平均长度为5.25个单词,比MS-COCO短得多[28]。场景分类数据Places2[29]、CMPlaces[30]和拓展后的Scene Net RGB-D[31]为场景识别提供了很好的数据资源。
图表编号 | XD00211768500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.01 |
作者 | 马倩霞、李频捷、宋靖雁、张涛 |
绘制单位 | 清华大学、清华大学、清华大学、清华大学 |
更多格式 | 高清、无水印(增值服务) |