《表2 在VQA v2.0 test-std上进行消融实验的准确率》
注:加粗字体为每列最优结果。
为了更好地验证自底向上注意力机制与记忆网络结合的有效性,以及每个模块对提出模型整体性能的影响,进一步在VQA v2.0数据集上做了消融实验,在test-std测试集上对实验结果进行比较。表2记录了消融实验中视觉问答准确率的变化。可以看出,与本文模型相比,模型只使用自底向上的注意力机制时,总体准确率降低了2.3%;模型只使用记忆网络时,总体准确率降低了3.7%。自底向上的注意力机制和记忆网络对模型的整体性能均存在一定影响,其中前者对模型的整体影响相对较大。本文模型将自底向上的注意力机制与记忆网络相结合,无论是在总体上,还是在回答“是/否”、“计数”、“其他”不同的问题类别上,准确率均达到了最优值,验证了两者结合的有效性。本文模型综合了两者的优点,通过自底向上的注意力机制增强对图像内容的表示,并结合记忆网络增强对有效信息的长时间记忆,从而提高了视觉问答的准确率。
图表编号 | XD00179359800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.05.16 |
作者 | 闫茹玉、刘学亮 |
绘制单位 | 合肥工业大学计算机与信息学院、合肥工业大学计算机与信息学院 |
更多格式 | 高清、无水印(增值服务) |