《表3 多模态数据集:多模态深度学习综述》

《表3 多模态数据集:多模态深度学习综述》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《多模态深度学习综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

这些数据集通常以人为中心的视觉理解,以及包括情感识别在内的变体,群体行为分析等[58]。例如:对于字母识别,avletters是最常用的数据库之一,包含来自10个扬声器的录音,每个字母重复3次,分辨率为376×288像素和25帧[59]。后来又进行了改进,avletters2解决了avletters的一些问题,例如低分辨率或扬声器数量有限[60]。具体来说,avletters2增加了发声次数,每个扬声器重复3到7次和分辨率1 920×1 080像素和50帧。Pascal数据集:它包含来自20个类别的1 000幅图像(每类50幅),其中一幅图像由5个不同的句子描述[61]。Flowers数据集:包含102个类,共有8 189幅图像。在训练阶段使用2 040幅图像,其余6 149幅图像用于测试[62]。CUB-Bird数据集:它包含来自200个类别的11 788张鸟类图像,其中5 994张图像用于培训,5 794张图像用于测试[63]。表3为常用的多模态数据集。