《表6 在VOT数据集上视频检测网络的性能对比》

《表6 在VOT数据集上视频检测网络的性能对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《高效检测复杂场景的快速金字塔网络SPNet》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:加粗字体表示最优结果,“-”为缺省值。

在使用TrackNet的情况下,SPNet会选中Harris匹配成功时选中的帧,在GPU上使用光流计算代替MainNet计算量较大的特征全卷积网络,显著提升检测效率。在500×500像素以下的输入尺度,特征卷积主网络的消耗时间小于0.05 s,TrackNet消耗时间小于0.02 s,总体检测速度维持在65~80帧/s左右;当输入尺度大于500×500像素,虽然检测精度略有提升,但主网络的消耗时间显著增加,每增加更多的像素都会带来更高昂的计算代价,检测速度也迅速降到60帧/s以下。因此,为平衡精度与帧率,网络输入尺度416×416像素、448×448像素是性价比最理想的选择。一些主流one-stage网络与本文SPNet在默认的最佳尺度下的检测速度对比如表5所示,可以看出,SPNet448得益于采用完整的追踪网络TrackNet,充分复用了卷积特征图与稠密光流复合的结构,网络的检测速度获得了显著提升。表6是一些主流视频跟踪网络与本文TrackNet在目标跟踪数据集VOT上的性能对比,可以看出,由于TrackNet内置于one-stage网络,且总体结构简单有效,跟踪速率具有显著优势,达到69.51帧/s,比D&T和SiamFC分别高66.41帧/s和15.81帧/s,比GOTURN低17.19帧/s。但跟踪精度与其他网络相比略有不及,精度和期望平均重合率(expected average overlap,EAO)均比跟踪网络框架T-RCN(tracking based on region convolution neural network)(吴进等,2018)、SumShift(Li等,2016)与SiamFC(Bertinetto等,2016)等算法低,主要是因为SPNet框架并非专门的跟踪网络,TrackNet的主要目标是利用D&T和DFF算法的跟踪思想,使用稠密光流跟踪特征图代替全卷积网络,有效降低计算代价,加强one-stage网络对视频流的检测能力。