《表1 基于预训练模型构建上层网络的方法》

《表1 基于预训练模型构建上层网络的方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于预训练模型和联合调参的改进训练算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

目前有三种算法可以在预训练的语言模型之上训练带有上层神经网络的网络结构,如表1所示,其中,算法NFT-TM是指在BERT模型的上层添加复杂的网络结构,在训练时,固定BERT的参数,仅单独训练上层任务模型网络。算法FT-NTM是指在在BERT模型后接一个简单的特定任务层(如全连接网络),在训练时,根据任务的训练样本集对BERT进行fine-tune即可。Peter等比较了算法FT-NTM和NFT-TM的可能性,并得出结论,算法FT-NTM比NFT-TM的效果更好。然而,Peter等没有比较算法FT-TM和FT-NTM。另一方面,在预训练语言模型流行之前,研究人员经常使用与方法FT-TM类似的策略,也就是说,建模人员首先对模型进行训练,直到收敛为止,然后在几个训练周期内对词嵌入进行微调。由于预训练的语言模型类似于词嵌入,那么不考虑算法FT-TM将是不明智的。