《表2 使用单一语义属性的MIVCf和其他三种模型在数据集MSVD上的实验结果》

《表2 使用单一语义属性的MIVCf和其他三种模型在数据集MSVD上的实验结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于多模态信息的视频描述算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了比较不同语义属性融合策略,通过实验分析本文所提出的基础模型MIVC和其他三种模型的性能比较,这三种模型都采用了高层语义属性,但是语义属性融合的策略不一样,实验结果如表2所示。为了公平地比较各种框架融合策略的差异,表中四种模型均使用单一的语义属性sf和同样的视频特征向量v。其中“LSTM-v/LSTM-vf”模型,v表示视频特征向量,f表示从视频RGB帧学习到的高层语义属性向量sf,vf表示将v和sf串联送到网络中,这些向量值都只在初始时刻输入到标准的LSTM解码器。实际上,LSTM-v是一个标准的编码-解码器模型,网络中没有使用高层语义属性,可以作为一个基准框架。LSTM-vf模型使用v和sf的串接作为LSTM解码器初始时刻的输入。在模型LSTM-vf中,视频特征向量v作为LSTM解码器初始时刻的输入,同时语义属性sf在解码器的每一时刻均输入到网络中,而MIVCf是本文提出的网络模型。从表2可以看出,与其他三种方法相比,MIVCf取得了最好的实验效果,证明了本文所提出的语义融合策略的有效性。尤其是MIVCf的效果远远好于基准模型LSTM-v,这表明了高层语义属性对于研究视频描述问题的重要性。