《表1 MIVC模型和其他流行的方法在MSVD数据集上的指标对比》

《表1 MIVC模型和其他流行的方法在MSVD数据集上的指标对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于多模态信息的视频描述算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
(%)

首先,为了评估视频不同语义特征和它们不同组合之间的有效性,在模型MIVC中采用6种不同的语义属性组合,同时串接vf,vc,vo作为视频最终的特征向量v输入到解码器中。其中“MIVCf”表示仅仅使用语义属性sf,“MIVCf+o”表示使用两个语义属性sf和so,其他四种模型遵守相同的标记,f,o,c分别表示sf,so和sc。表1展示了本文提出各种模型与目前流行方法在MSVD数据上的性能比较。可以看出:(1)本文所提出的模型“MIVCf+o+c”在6个评价指标上均取得了最好的实验结果。特别地,该模型在METEOR和CIDER指标上分别为35.3%和79.6%,是对比方法中效果最好的模型。(2)对于MIVC模型的六种变体,比如“MIVCf”、“MIVCf+o”和“MIVCf+o+c”,六个评价准则的分数值逐渐增大。这表明随着多模态语义属性的加入,模型的视觉表达能力变强,更加有利于视频描述语句的生成。也就是说MIVCf+o+c的性能优于MIVCf和MIVCf+o,这证明了学习到的多模式语义属性能够增强视频描述的性能。(3)即使只使用一种语义属性sf,“MIVCf”模型在METEOR和CIDER指标上也接近甚至优于LSTM-TSA[17],证明所提出MIVC基本框架的有效性。