《表1 基于预训练模型构建上层网络的方法》
目前有三种算法可以在预训练的语言模型之上训练带有上层神经网络的网络结构,如表1所示,其中,算法NFT-TM是指在BERT模型的上层添加复杂的网络结构,在训练时,固定BERT的参数,仅单独训练上层任务模型网络。算法FT-NTM是指在在BERT模型后接一个简单的特定任务层(如全连接网络),在训练时,根据任务的训练样本集对BERT进行fine-tune即可。Peter等比较了算法FT-NTM和NFT-TM的可能性,并得出结论,算法FT-NTM比NFT-TM的效果更好。然而,Peter等没有比较算法FT-TM和FT-NTM。另一方面,在预训练语言模型流行之前,研究人员经常使用与方法FT-TM类似的策略,也就是说,建模人员首先对模型进行训练,直到收敛为止,然后在几个训练周期内对词嵌入进行微调。由于预训练的语言模型类似于词嵌入,那么不考虑算法FT-TM将是不明智的。
图表编号 | XD00161928900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.20 |
作者 | 苏海波、刘译璟 |
绘制单位 | 北京百分点信息科技有限公司 |
更多格式 | 高清、无水印(增值服务) |