《表1 HAM与传统算法的比较》
在本节中,本文的基于多层级图像表征的层次化注意力图像描述(HAM)与当前的一些图像描述算法在COCO数据集上进行了比较,结果如表1所示。HAM在COCO数据集上的表现是最好的。此外,与单模态的模型(Soft attention、Att+cnn+lstm)相比,HAM的结果更体现了多模态的特征融合对于图像描述的准确度的提高是有效。从整体效果看,不同层次的多模态融合实现了不同特征间的互补,从而提高了图像描述的准确度。本文所提出的HAM与Att+cnn+lstm、Att2in都利用了图像的属性信息,可以看出HAM要由于其他两种方法。原因在于HAM的双层LSTM的框架结构可以平衡视觉信息与图像的属性信息。这样不仅能够维持图像多种模态信息融合的平衡,还会使模型在生成较为准确描述的同时具有较好的抗噪性。
图表编号 | XD00164973900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.20 |
作者 | 王雷全、褚晓亮、秦智超、魏燚伟、吴春雷 |
绘制单位 | 中国石油大学(华东)、中国石油大学(华东)、中国电子科学研究院、中国石油大学(北京)新疆克拉玛依校区、中国石油大学(华东) |
更多格式 | 高清、无水印(增值服务) |