《表4 在MSRA数据集上减少BERT模型层数的实验结果》
由于BERT模型每层在预训练中所学习到的信息不同,所以本文提出的第2个尝试性改进方案是减少BERT嵌入层数,从不同层获取模型输出结果,同样基于固定BERT参数的BERT-Bi L-STM-CRF模型进行实验。首先在MSRA数据集上进行了BERT层数裁剪实验。分别取BERT模型嵌入层、第3层、第6层、第9层与12层进行对比,实验结果如表4所示。
图表编号 | XD00202360400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.05 |
作者 | 毛明毅、吴晨、钟义信、陈志成 |
绘制单位 | 北京工商大学计算机与信息工程学院、北京工商大学计算机与信息工程学院、北京邮电大学计算机学院、北京邮电大学计算机学院 |
更多格式 | 高清、无水印(增值服务) |