《表1 人脸检测网络预处理时间对比》
如表1所示,实验结果表明,与Open CV库的CPU版本相比,NEON优化性能却下降,这主要是由于(1)intrinsics指令不能一次性从uint8转换成float,中间涉及u16、u32、f32、f64的类型转换浪费很多cycle;(2)需要对离散的像素进行打包操作。查表法因为计算量的减少能达到1.34倍的加速比,可以计算出分辨率为224×224×3的图像计算量能够变为之前的0.0051。基于Open VX的并行优化由于其SIMD向量化、以及graph的处理能得到12.65倍的加速比。另外,准确率不会因为优化方式的不同而改变,因为算法步骤是相同的。
图表编号 | XD00212753400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.12.05 |
作者 | 黄灿 |
绘制单位 | 上海交通大学微纳电子学系 |
更多格式 | 高清、无水印(增值服务) |