《表4 句子语义相似任务在Quora数据集的结果》

《表4 句子语义相似任务在Quora数据集的结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于预训练模型和联合调参的改进训练算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本次实验将仅对BERT进行fine-tune的方法FT-NTM为baseline,对比了在BERT之后接BIMPM网络的效果。同时以方法NFT-TM为baseline,对比了两种改进BIMPM之后模型结构的效果(移除BIMPM中的第一层Bi-LSTM模型和将BIMPM的matching层与transformer相结合的模型)。注意,在模型训练时有个重要的技巧,考虑到预训练模型本身的效果和其与顶层模型的融合问题,在训练模型时,需要分两步进行:先固定预训练模型的参数,仅训练其上层特定任务网络,第二步再将整个网络联合训练。实验结果如表4中所示,可以看出,由实验结果可得,Bert+SimTransformer结合fine-tune Bert的FT-TM算法效果相较仅对BERT进行fine-tune的方法FT-NTM,准确率提升了近5个百分点,达到了目前的State-of-the-art。