《表4 句子语义相似任务在Quora数据集的结果》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于预训练模型和联合调参的改进训练算法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

本次实验将仅对BERT进行fine-tune的方法FT-NTM为baseline，对比了在BERT之后接BIMPM网络的效果。同时以方法NFT-TM为baseline，对比了两种改进BIMPM之后模型结构的效果（移除BIMPM中的第一层Bi-LSTM模型和将BIMPM的matching层与transformer相结合的模型）。注意，在模型训练时有个重要的技巧，考虑到预训练模型本身的效果和其与顶层模型的融合问题，在训练模型时，需要分两步进行：先固定预训练模型的参数，仅训练其上层特定任务网络，第二步再将整个网络联合训练。实验结果如表4中所示，可以看出，由实验结果可得，Bert+SimTransformer结合fine-tune Bert的FT-TM算法效果相较仅对BERT进行fine-tune的方法FT-NTM，准确率提升了近5个百分点，达到了目前的State-of-the-art。

图表编号	XD00161929000 严禁用于非法目的
绘制时间	2020.02.20
作者	苏海波、刘译璟
绘制单位	北京百分点信息科技有限公司
更多格式	高清、无水印（增值服务）