《表4 预训练模型在中文数据集上的性能表现》

《表4 预训练模型在中文数据集上的性能表现》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于预训练模型的机器阅读理解研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
%

表3和表4将当下预训练模型相关论文中提到的数据集以及性能得分进行汇总,表3是目前比较常见的SQuAD 1.1和SQuAD 2.0数据集。通过对比可以看出预训练模型优于传统模块分离方式的性能,带来绝对的效果提升。在XLNet以及后续的BERT系列的改进版本中性能逐渐提升,说明预训练模型还需要进一步发展。表4汇总了预训练模型在相关中文数据集上的表现,由表中CMRC、DRCD、DuReader数据集的表现可以看出描述型任务的数据集比抽取型任务的数据集要更复杂、更困难。再通过CMRC与CJRC数据集的性能对比,可以看出专业性较强的任务也会更复杂。CMRC是通用领域的数据集,而CJRC是法律领域的数据集,预训练模型在专业知识较强的领域上还有很大的提升空间。