《表5 基于TwoParam特征融合的MHA模型在数据集上的Dropout实验结果》
多头注意力机制在多个子空间内进行注意力分布的计算,将结果进行拼接和线性映射,可能存在信息冗余的问题,所以考虑在每个词的5个注意力分布向量上进行Dropout实验,设定Dropout为0.2,即随机地丢弃关注到的一些重复或者错误的信息,结果如表5所示,除了Chunking数据外,模型在其他数据集上的效果都得到了进一步提升,表明Dropout具有正面的作用。
图表编号 | XD00153929900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.10.01 |
作者 | 王旭强、岳顺民、张亚行、刘杰、王扬、杨青 |
绘制单位 | 国网天津市电力公司信息通信公司、国网天津市电力公司信息通信公司、南开大学计算机学院、南开大学人工智能学院、国网天津市电力公司信息通信公司、国网天津市电力公司信息通信公司 |
更多格式 | 高清、无水印(增值服务) |