《表6 在VOT数据集上视频检测网络的性能对比》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《高效检测复杂场景的快速金字塔网络SPNet》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

注:加粗字体表示最优结果，“-”为缺省值。

在使用TrackNet的情况下，SPNet会选中Harris匹配成功时选中的帧，在GPU上使用光流计算代替MainNet计算量较大的特征全卷积网络，显著提升检测效率。在500×500像素以下的输入尺度，特征卷积主网络的消耗时间小于0.05 s，TrackNet消耗时间小于0.02 s，总体检测速度维持在65～80帧/s左右；当输入尺度大于500×500像素，虽然检测精度略有提升，但主网络的消耗时间显著增加，每增加更多的像素都会带来更高昂的计算代价，检测速度也迅速降到60帧/s以下。因此，为平衡精度与帧率，网络输入尺度416×416像素、448×448像素是性价比最理想的选择。一些主流one-stage网络与本文SPNet在默认的最佳尺度下的检测速度对比如表5所示，可以看出，SPNet448得益于采用完整的追踪网络TrackNet，充分复用了卷积特征图与稠密光流复合的结构，网络的检测速度获得了显著提升。表6是一些主流视频跟踪网络与本文TrackNet在目标跟踪数据集VOT上的性能对比，可以看出，由于TrackNet内置于one-stage网络，且总体结构简单有效，跟踪速率具有显著优势，达到69.51帧/s，比D&T和SiamFC分别高66.41帧/s和15.81帧/s，比GOTURN低17.19帧/s。但跟踪精度与其他网络相比略有不及，精度和期望平均重合率（expected average overlap，EAO）均比跟踪网络框架T-RCN（tracking based on region convolution neural network）（吴进等，2018）、SumShift（Li等，2016）与SiamFC（Bertinetto等，2016）等算法低，主要是因为SPNet框架并非专门的跟踪网络，TrackNet的主要目标是利用D&T和DFF算法的跟踪思想，使用稠密光流跟踪特征图代替全卷积网络，有效降低计算代价，加强one-stage网络对视频流的检测能力。

图表编号	XD00179359400 严禁用于非法目的
绘制时间	2020.05.16
作者	李鑫泽、张轩雄、陈胜
绘制单位	上海理工大学光电信息与计算机工程学院、上海理工大学光电信息与计算机工程学院、上海理工大学光电信息与计算机工程学院
更多格式	高清、无水印（增值服务）