《Table 2 Detailed parameters of the deep learning IP core表2 深度学习IP核详细参数》

《Table 2 Detailed parameters of the deep learning IP core表2 深度学习IP核详细参数》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向深度学习的SoC架构设计与仿真》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

700多个Tensor Core的组织和布局是非常复杂的,且如此细粒度的设计也并非本文所能涵盖和完成的,考虑到Tensor Core的结构是可扩展的,即可以将4*4*4的矩阵处理阵列扩展为8*8*8或16*16*16。若将Tensor Core矩阵处理阵列扩展为8*8*8,则Tensor Core的浮点性能为1TOPS,所需的Tensor Core个数为90个左右。将Tensor Core矩阵处理阵列扩展为16*16*16,则Tensor Core的浮点性能为8 TOPS,所需的Tensor Core个数约为12个。因此,本文最终选取矩阵处理粒度为16*16*16的Tensor Core作为本文中SoC系统设计的主要计算单元。由于SoC系统运行时不可能一直处于峰值性能,因此本文在进行系统设计时,需要适量地扩充计算单元个数,最终设计使用了16个Tensor Core。每4个Tensor Core为1组,形成1个Cluster,共有4个Cluster。