《表4 在MSRA数据集上减少BERT模型层数的实验结果》

《表4 在MSRA数据集上减少BERT模型层数的实验结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《加入自注意力机制的BERT命名实体识别模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由于BERT模型每层在预训练中所学习到的信息不同,所以本文提出的第2个尝试性改进方案是减少BERT嵌入层数,从不同层获取模型输出结果,同样基于固定BERT参数的BERT-Bi L-STM-CRF模型进行实验。首先在MSRA数据集上进行了BERT层数裁剪实验。分别取BERT模型嵌入层、第3层、第6层、第9层与12层进行对比,实验结果如表4所示。