《表9 几种不同的预训练加微调模型在Flickr30k数据集上的性能比对》

《表9 几种不同的预训练加微调模型在Flickr30k数据集上的性能比对》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《多模态视觉语言表征学习研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

针对下游任务的评估,是在产生的统一表征的基础上针对具体的任务进行微调.从表8中可以看出,这种方式的准确率最高,这也表明这种方法的先进性.进行评估的下游任务囊括了上一节中介绍的各类任务,包括内容生成类和内容理解类的,比如视觉问答、视觉推理、视觉联合推理、图像检索、视频检索等,以及图像描述等.目前为止,视觉问答、推理和联合推理任务中表现较好的模型UNITER、ImageBERT以及ERNIE-ViL,其提升的关键是引用了更大的数据集和设计了更合理的预训练损失函数.在表9中,针对不同模型的性能进行了比对.