《表4 在SYSU 3D HOI数据库上各种方法的识别结果对比 (“RGB-D”指同时使用RGB、深度和骨架三种模态数据)》

《表4 在SYSU 3D HOI数据库上各种方法的识别结果对比 (“RGB-D”指同时使用RGB、深度和骨架三种模态数据)》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《RGB-D行为识别研究进展及展望》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表2~表4分别给出了相关方法在NTU大规模行为数据库,MSR日常行为数据库和SYSU3DHOI数据库上的识别结果.从中可以看出,自深度学习方法被广泛用于解决RGB-D行为识别问题以来,具体识别效果有了大幅度的提高,尤其是在NTU大规模行为数据库上,无论是个体交叉还是视角交叉设置,现有方法仅使用骨架数据就能将别性能从60%提升至90%左右.其中大部分的深度学习相关工作都是基于改进LSTM模型,以挖掘动作序列中的时空变化信息.虽然LSTM模型充分展现了它在时序建模方面的强大能力,但不能忽视的是,最新的一些研究表明基于卷积神经网络(CNN)的模型也取得了非常优异的识别结果[43,45],通过将三维骨架序列人工编码成静态图像,利用卷积核自动学习图像内部编码的时空结构信息,从而挖掘到具有判别性的时空变化信息.然而值得注意的是,这些模型需要人工地将三维骨架序列进行编码,且实验表明该编码方式对算法的识别效果较大.因此,怎样对三维骨架序列进行合适编码,是该研究中的关键问题.另一方面,从表3和表4的识别结果可以看到,基于RGB-D的多数据模态融合模型往往比单一模态方法识别效果更加稳定.这很符合预期,因为不同模态数据可以捕捉到行为不同方面的信息,它们之间往往能在一定程度上进行互补.然而,由于从多个通道提取特征非常消耗计算资源和耗时,尤其是当使用深度学习网络提取相关特征时.这也导致大部分的多模态特征融合方法在NTU大规模数据库上未能进行验证.因此,怎样发展一个轻量级的深度学习模型来融合RGB、深度和三维骨架数据进行行为识别也是未来的一个重要研究内容.