《表4 模型训练时卷积层、BN层及ReLU层访存量统计》

《表4 模型训练时卷积层、BN层及ReLU层访存量统计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《卷积神经网络训练访存优化》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从表4可以看出,卷积层、批归一化层及激活层训练时的前向计算过程分别需要访存2D及D数据量。对于前向过程的计算量,卷积层的每个输出结果需要K2 C1C2次浮点乘加,完成卷积层共需要K2 C1C2NC2H2W2次乘加操作;从表2可知,批归一化层前向计算过程共需要8 NC2H2W2次浮点操作;激活层每个结果需要一次浮点比较操作,共需要NC2H2W2次浮点操作。由于K2 C1C2远大于8,因此卷积层的计算量远大于批归一化层,而二者的访存数据量接近,因此批归一化层的计算访存比远低于卷积层。同理可分析反向计算过程中不同层次的计算密度。