《表4 FasterR-CNN和ResNeXt性能对比》

《表4 FasterR-CNN和ResNeXt性能对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《多模态视觉语言表征学习研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

卷积神经网络是目前比较通用的图像特征提取方法,目前,大部分的图像任务大多基于一个效果较好的卷积网络比如ResNet-101[65]提取图像表征,然后在一个具体任务上进行应用.BERT在处理文本任务时,其输入的信息都是词或者字,是一个小的语义单元,将整张图片向量作为输入,将无法很好地学习视觉语义单元信息,所以一般对图片进行目标检测操作,然后将检测后的结果进行处理,然后作为一个语义单元作为输入.表4中展示了Unicode-VL模型在句子检索和图像检索任务中使用ResNeXt[66]模型和FasterR-CNN[67]模型提取检测框的差别.