《表2 U-Net网络卷积运算加速前后对比》

《表2 U-Net网络卷积运算加速前后对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于FPGA的U-Net网络硬件加速系统的实现》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

Pynq-Z1平台的FPGA中,完成一次单精度浮点数的乘累加运算的时间约为50个周期,其中包括对外部存储的两次读数据和一次写数据,运算过程和数据读写过程都很耗时。U-Net网络通用卷积运算硬件加速器的K值为8,理论上卷积运算的运算性能提升为400倍。但是ARM Cortex-A9的工作频率远大于FPGA的工作频率,两者的硬件机制和缓存机制也不同,实际的性能加速要远小于这个理论值。试验中,U-Net神经网络中25次卷积运算加速前后的运算时间和性能提升如表2所示。可以看出,大部分卷积运算在加速器中的运算速度是ARM运算性能的20倍左右,只有第一个卷积运算的运算速度提升低于10倍。原因是第一个卷积运算的输入通道数Cin等于3,不是K的整数倍,未充分利用硬件加速器的并行度。最终,所有卷积运算在卷积运算硬件加速器中的运算速度达到了ARM中运算速度的20.122倍。同时,整个U-Net网络的运算时间缩短为844.874 s,运算性能提升了19.690倍。