《表1 数据集汇总:基于深度学习的视频行为识别方法综述》

《表1 数据集汇总:基于深度学习的视频行为识别方法综述》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的视频行为识别方法综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:Top-1指预测结果中只有概率第一的分类正确才表示预测正确,否则预测错误;Top-5指预测结果中概率的前5中只要有正确的分类就表示预测正确,否则预测错误

近年来,为了评估行为识别方法的性能,提升深度学习在视频行为识别中的应用价值,研究者们创建了大量的公开数据集。这对促进人体行为识别方法的研究起到了关键性的推动作用。目前行为识别常用的数据集可分为通用数据集和真实场景数据集两大类,各种常用数据集的详细介绍见表1(2004–2018年)。其中KTH[1]和Weizmann[2-3]数据集属于通用行为识别数据集,是受试者在受限的场景下做出的一系列动作。这类数据集背景单一、动作种类少,没有包含相机运动,与真实的场景差别很大。真实场景数据集收集于电影、YouTube等视频中,由于相机移动、场景不固定且动作类内离散度大而极具挑战性。它包括Hollywood[4]、Olympic sports[5]、HMDB51[6]、UCF[7-10]、Sports-1M[11]、Kinetics[12]、Moments in Time[13]等。从数据集的发展趋势来看,近几年数据集里包含越来越多的动作类别与样本数目,纷繁复杂的视频场景,使其越来越接近于不受控的自然状态下的情景。这种更接近实际情况的发展趋势使得视频行为识别更具实用价值,但同时对算法的稳健性也提出了更高的要求。目前行为识别领域针对UCF-101和HMDB51数据集的研究有很多并且相当深入,因此,本文主要是对基于这两个公开数据集的方法做了比较全面的阐述、对比和分析[14-26]。