《表2 在VQA v2.0 test-std上进行消融实验的准确率》

《表2 在VQA v2.0 test-std上进行消融实验的准确率》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《结合自底向上注意力机制和记忆网络的视觉问答模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:加粗字体为每列最优结果。

为了更好地验证自底向上注意力机制与记忆网络结合的有效性,以及每个模块对提出模型整体性能的影响,进一步在VQA v2.0数据集上做了消融实验,在test-std测试集上对实验结果进行比较。表2记录了消融实验中视觉问答准确率的变化。可以看出,与本文模型相比,模型只使用自底向上的注意力机制时,总体准确率降低了2.3%;模型只使用记忆网络时,总体准确率降低了3.7%。自底向上的注意力机制和记忆网络对模型的整体性能均存在一定影响,其中前者对模型的整体影响相对较大。本文模型将自底向上的注意力机制与记忆网络相结合,无论是在总体上,还是在回答“是/否”、“计数”、“其他”不同的问题类别上,准确率均达到了最优值,验证了两者结合的有效性。本文模型综合了两者的优点,通过自底向上的注意力机制增强对图像内容的表示,并结合记忆网络增强对有效信息的长时间记忆,从而提高了视觉问答的准确率。