《表3 多模态数据集:多模态深度学习综述》
这些数据集通常以人为中心的视觉理解,以及包括情感识别在内的变体,群体行为分析等[58]。例如:对于字母识别,avletters是最常用的数据库之一,包含来自10个扬声器的录音,每个字母重复3次,分辨率为376×288像素和25帧[59]。后来又进行了改进,avletters2解决了avletters的一些问题,例如低分辨率或扬声器数量有限[60]。具体来说,avletters2增加了发声次数,每个扬声器重复3到7次和分辨率1 920×1 080像素和50帧。Pascal数据集:它包含来自20个类别的1 000幅图像(每类50幅),其中一幅图像由5个不同的句子描述[61]。Flowers数据集:包含102个类,共有8 189幅图像。在训练阶段使用2 040幅图像,其余6 149幅图像用于测试[62]。CUB-Bird数据集:它包含来自200个类别的11 788张鸟类图像,其中5 994张图像用于培训,5 794张图像用于测试[63]。表3为常用的多模态数据集。
图表编号 | XD00222624500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.01 |
作者 | 孙影影、贾振堂、朱昊宇 |
绘制单位 | 上海电力大学电子与信息工程学院、上海电力大学电子与信息工程学院、上海电力大学电子与信息工程学院 |
更多格式 | 高清、无水印(增值服务) |