《表3 不同模型在MS COCO数据集上的评价结果对比》

《表3 不同模型在MS COCO数据集上的评价结果对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于注意力特征自适应校正的图像描述模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在MS COCO数据集上将AFAR分别与Multimodal RNN[7]、DeepVS[16]、Google NIC[8]、gLSTM[17]、Soft-Attention[11]、Hard-Attention[11]模型进行性能对比,Multimodal RNN是双向循环神经网络的图像描述模型;DeepVS是引入Multimodal RNN结构并由对齐关系映射图像文本的图像描述模型;Google NIC是具有代表性的编码器-解码器结构的图像描述模型;gLSTM是将NIC模型结合LSTM网络的图像描述模型;Soft-Attention和Hard-Attention是空间注意力图像描述模型,前者将区域特征与权值相乘求和,后者只取权值最大的区域特征作为解码网络的输入。对比实验结果如表3所示,加粗数值表示当前最高。