《表1 NVLR2任务用于判断自然语言处理中句子对是否正确》

《表1 NVLR2任务用于判断自然语言处理中句子对是否正确》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《多模态视觉语言表征学习研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

Transformer凭借其强大的特征学习能力、预训练加下游任务的多阶段架构、基于随机掩码构建的自动编码机制,在NLP领域取得了巨大成功.从2019年开始,多模态领域开始借鉴BERT在NLP领域的一些成功经验,由此诞生了像VideoBERT[60]、ViLBert[33]、ImageBERT[40]、LXMERT[37]、UNITER[35]等一系列基于预训练架构和Transformer[21]特征抽取的多模态模型,并取得了较好的效果.表1展示了在视觉推理任务中近些年评测的结果.