《表3 多模态数据集：多模态深度学习综述》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《多模态深度学习综述》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

这些数据集通常以人为中心的视觉理解，以及包括情感识别在内的变体，群体行为分析等[58]。例如：对于字母识别，avletters是最常用的数据库之一，包含来自10个扬声器的录音，每个字母重复3次，分辨率为376×288像素和25帧[59]。后来又进行了改进，avletters2解决了avletters的一些问题，例如低分辨率或扬声器数量有限[60]。具体来说，avletters2增加了发声次数，每个扬声器重复3到7次和分辨率1 920×1 080像素和50帧。Pascal数据集：它包含来自20个类别的1 000幅图像（每类50幅），其中一幅图像由5个不同的句子描述[61]。Flowers数据集：包含102个类，共有8 189幅图像。在训练阶段使用2 040幅图像，其余6 149幅图像用于测试[62]。CUB-Bird数据集：它包含来自200个类别的11 788张鸟类图像，其中5 994张图像用于培训，5 794张图像用于测试[63]。表3为常用的多模态数据集。

图表编号	XD00222624500 严禁用于非法目的
绘制时间	2020.11.01
作者	孙影影、贾振堂、朱昊宇
绘制单位	上海电力大学电子与信息工程学院、上海电力大学电子与信息工程学院、上海电力大学电子与信息工程学院
更多格式	高清、无水印（增值服务）