《表1 NVLR2任务用于判断自然语言处理中句子对是否正确》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《多模态视觉语言表征学习研究综述》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

Transformer凭借其强大的特征学习能力、预训练加下游任务的多阶段架构、基于随机掩码构建的自动编码机制，在NLP领域取得了巨大成功.从2019年开始，多模态领域开始借鉴BERT在NLP领域的一些成功经验，由此诞生了像VideoBERT[60]、ViLBert[33]、ImageBERT[40]、LXMERT[37]、UNITER[35]等一系列基于预训练架构和Transformer[21]特征抽取的多模态模型，并取得了较好的效果.表1展示了在视觉推理任务中近些年评测的结果.

图表编号	XD00207322400 严禁用于非法目的
绘制时间	2021.02.01
作者	杜鹏飞、李小勇、高雅丽
绘制单位	可信分布式计算与服务教育部重点实验室(北京邮电大学)、北京邮电大学网络空间安全学院、可信分布式计算与服务教育部重点实验室(北京邮电大学)、北京邮电大学网络空间安全学院、可信分布式计算与服务教育部重点实验室(北京邮电大学)、北京邮电大学网络空间安全学院
更多格式	高清、无水印（增值服务）