《表2 追赶法与PCR-pThomas算法的浮点运算次数》
然后考虑PCR-pThomas算法。一方面,申威处理器对单精度和双精度浮点运算的向量化宽度都只有4个浮点数。如表2所示,PCR-pThomas算法中,最多只能相比追赶法减少0.5n次向量除法,同时还要引入额外的向量混洗(shuffle)操作,向量化给PCR-pThomas算法带来的提升空间小。另一方面,PCR-pThomas算法和追赶法的访存量相同,受到同样的访存带宽限制。综合以上两点,可以发现,PCR-pThomas算法很难达到比追赶法更高的性能,因此在这两者之中选择更简单的追赶法即可。
图表编号 | XD0091258600 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.01 |
作者 | 刘侃、王欣亮、许平、薛巍 |
绘制单位 | 清华大学计算机科学与技术系、清华大学计算机科学与技术系、清华大学计算机科学与技术系、清华大学计算机科学与技术系、国家超级计算无锡中心 |
更多格式 | 高清、无水印(增值服务) |