《表4 句子语义相似任务在Quora数据集的结果》
本次实验将仅对BERT进行fine-tune的方法FT-NTM为baseline,对比了在BERT之后接BIMPM网络的效果。同时以方法NFT-TM为baseline,对比了两种改进BIMPM之后模型结构的效果(移除BIMPM中的第一层Bi-LSTM模型和将BIMPM的matching层与transformer相结合的模型)。注意,在模型训练时有个重要的技巧,考虑到预训练模型本身的效果和其与顶层模型的融合问题,在训练模型时,需要分两步进行:先固定预训练模型的参数,仅训练其上层特定任务网络,第二步再将整个网络联合训练。实验结果如表4中所示,可以看出,由实验结果可得,Bert+SimTransformer结合fine-tune Bert的FT-TM算法效果相较仅对BERT进行fine-tune的方法FT-NTM,准确率提升了近5个百分点,达到了目前的State-of-the-art。
图表编号 | XD00161929000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.20 |
作者 | 苏海波、刘译璟 |
绘制单位 | 北京百分点信息科技有限公司 |
更多格式 | 高清、无水印(增值服务) |