《表2 基于编码和解码架构区分的视觉语言统一表征》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《多模态视觉语言表征学习研究综述》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

一个典型的Transformer架构由编码器和解码器两部分组成，其中，编码器部分主要应用于内容的理解，比如BERT；解码器部分则侧重于内容的生成和回归，典型有GPT这种模型.目前产出的视觉语言统一表征框架多是基于Transformer自动编码架构的，侧重于内容理解部分.另外的架构就是融合自回归和自编码两种模型的架构，其可以支持内容理解和内容生成的通用任务，见表2.

图表编号	XD00207321800 严禁用于非法目的
绘制时间	2021.02.01
作者	杜鹏飞、李小勇、高雅丽
绘制单位	可信分布式计算与服务教育部重点实验室(北京邮电大学)、北京邮电大学网络空间安全学院、可信分布式计算与服务教育部重点实验室(北京邮电大学)、北京邮电大学网络空间安全学院、可信分布式计算与服务教育部重点实验室(北京邮电大学)、北京邮电大学网络空间安全学院
更多格式	高清、无水印（增值服务）