《表4 两种平台三种实现方案对比》

《表4 两种平台三种实现方案对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于分数阶傅里叶变换的水下航行器LFM回波检测算法的GPU优化实现》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表4给出了NB=3,NP=81条件下处理一窗数据时几种方案执行时间。在桌面级平台上,与CPU实现方案相比,GPU方案能获得超过9倍的性能加速。对于计算复杂度较低的步骤如BF_IN步骤,GPU方案仅获得约2.33倍性能加速。加速效果不明显,原因为核函数的启动具有较大而相对固定的时间开销,当计算任务的计算复杂度较低时,核函数启动时间开销占比较大且不可忽略。另外,C_CONV步骤的计算复杂度约5.6 GFloats,GPU方案实现该步骤的计算吞吐量约243 GFlops,获得约10倍性能加速,这充分体现了GPU在处理大规模并行计算任务时的优势。将GPU并行程序移植到嵌入式平台上,执行时间约89 ms,小于UUV平台半窗采集数据的更新时间,满足实时性需求。