《表2 空间卷积网络结构:去除光流中冗余信息的动作预测方法》

《表2 空间卷积网络结构:去除光流中冗余信息的动作预测方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《去除光流中冗余信息的动作预测方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文动作预测结构如图5所示。卷积神经网络可以有效处理图像识别的任务,但是视频不同于图像,视频除了具有空间上的维度还具有时间上的维度信息,因此2D卷积网络无法很好地处理视频序列,3D卷积网络[11]是2D卷积网络的延伸,可以有效处理视频序列,但是3D卷积网络参数量巨大,训练时容易出现过拟合的现象。针对这样的问题,本文将3D卷积网络分解为空间上的2D卷积和时间上的1D卷积,而空间上的2D卷积操作可以有效利用现有的大型图片数据集如ImageNet等预训练好的模型,这样将大大减少模型需要训练的参数量,降低过拟合的风险。本文方法如下,首先使用预训练的CNN模型作为空间卷积网络提取光流图的空间特征,然后堆叠K帧空间卷积网络提取的特征作为时间卷积网络的输入。时间卷积网络由两层时间卷积,一个由512个单元的全连接层和一个Softmax层构成(如表1所示)。时间卷积如图6所示,卷积核大小为1×3,卷积核个数为6。本文使用CNN-M-2048[12]作为空间卷积网络,网络结构如表2所示。