《表3 解码自注意力计算粒度按不同比例压缩前后的比较》
从表3可以看出仅对解码自注意力机制,采用CTF方法压缩18.7%时,性能基本不受影响,压缩比例提升一倍之后,速度提升比例也增加了一倍多,同时性能相较于基线系统略有提升.这可能是因为压缩之后有些噪声信息恰好被去掉,没有继续传给下一层,从而使上层的预测更加准确,这也从侧面证实了基线系统每层表达的信息量不一定是最优的.同时注意到,压缩37.5%时CTF方法在性能和速度提升方面均明显优于平均压缩的方法.
图表编号 | XD00140612400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.28 |
作者 | 张裕浩、许诺、李垠桥、肖桐、朱靖波 |
绘制单位 | 东北大学自然语言处理实验室、东北大学自然语言处理实验室、东北大学自然语言处理实验室、东北大学自然语言处理实验室、沈阳雅译网络技术有限公司、东北大学自然语言处理实验室、沈阳雅译网络技术有限公司 |
更多格式 | 高清、无水印(增值服务) |