《表1 在Activity Net v1.3数据集上的时域区域生成性能对比》
注:加粗字体表示最优结果,“—”表示无法获取数据。
将本文方法与SSN(structured segment network)(Zhao等,2017)、TCN(temporal context network)(Dai等,2017)、Prop-SSAD(single shot action detector for proposal)(Lin等,2017)、CTAP(complementary temporal action proposal)(Gao等,2018)和BSN(boundary sensitive network)(Lin等,2018)等方法在ActivityNet v1.3数据集上进行时域区域生成性能对比实验,结果如表1所示。可以看出,本文方法在评价指标AR@100和AUC中均优于其他方法。与其他方法中效果最好的BSN相比,本文方法将AR@100提高了0.5,将AUC指标从66.17提高到66.32。虽然其他方法同样采用双流网络提取视频特征,但本文方法表现更好,因为其他方法只利用了卷积层,有限的感受野使得模型一次只能注意到视频中的一小段区域,丢失了视频的全局时序信息及候选的上下文信息。而在本文方法中,LAEM模块基于CNN,强调时序信息的局部特征响应,并利用局部信息预测候选区域的边界概率和动作概率;GAEM模块基于BLSTM,利用前后回顾的记忆单元处理长视频中的时序关联性,捕捉视频的全局信息并准确预测候选区域的动作概率。基于这两个模块对局部信息和全局信息的整合,本文方法得以结合概率曲线得到具有更准确、更灵活的动作时序边界的候选区域,可以覆盖视频中多种长度间隔的动作检测。
图表编号 | XD00179365100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.16 |
作者 | 熊成鑫、郭丹、刘学亮 |
绘制单位 | 合肥工业大学计算机与信息学院、合肥工业大学计算机与信息学院、合肥工业大学计算机与信息学院 |
更多格式 | 高清、无水印(增值服务) |