《表1 Kinetics数据集上动作识别精度》

《表1 Kinetics数据集上动作识别精度》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《多角度视频的驾驶人员行为识别》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表2给出了UCF101在Kinetics数据集上预训练后的模型上的动作识别精度,在预训练模型上UCF的训练时间大幅减小,得到的结论也与上述一致,R(2+1)D模型的表现最好。根据Varol等[19]的研究发现,使用长期卷积(LTC)在较长的输入剪辑(例如,100帧)上训练视频CNN,可以获得准确度增益。笔者也对输入剪辑的帧数进行了比较,如图12和图13所示,大部分模型在将8帧为一个剪辑设置成16帧为一个剪辑后,识别精度均有提升。针对此问题做了2个实验,在第1个实验中,采用8帧的剪辑训练的模型,并使用32帧的剪辑作为输入进行测试。结果发现,与8帧剪辑相比,识别精度下降5.8%。在第2个实验中,使用在8帧的剪辑预训练后的模型参数微调32帧模型。在这种情况下,网络实现的结果几乎与在32帧剪辑中从头学习(68.0%对比69.4%)时的结果相同。然而,从8帧预训练参数中微调32帧模型大大缩短了总训练时间。上述2个实验表明,对较长剪辑进行训练会产生不同(更好)的模型,因为模型会学习更长的时间信息。表3给出了Kinetics数据集上在不同长度的剪辑上训练和评估的18层R(2+1)D的总训练时间和准确度。