《表2 基于编码和解码架构区分的视觉语言统一表征》

《表2 基于编码和解码架构区分的视觉语言统一表征》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《多模态视觉语言表征学习研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

一个典型的Transformer架构由编码器和解码器两部分组成,其中,编码器部分主要应用于内容的理解,比如BERT;解码器部分则侧重于内容的生成和回归,典型有GPT这种模型.目前产出的视觉语言统一表征框架多是基于Transformer自动编码架构的,侧重于内容理解部分.另外的架构就是融合自回归和自编码两种模型的架构,其可以支持内容理解和内容生成的通用任务,见表2.