《表1 数据记录分析表:基于深度预训练语言模型的文献学科自动分类研究》

《表1 数据记录分析表:基于深度预训练语言模型的文献学科自动分类研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度预训练语言模型的文献学科自动分类研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

(3)训练数据提取与准备。提取每篇文献的标题、关键词、摘要以及对应的一级学科,删除摘要为空、非中文描述的文献,共得到90514篇文献,各一级学科对应的文献样本数量如表1所示。对于文献数量较少的军事相关一级学科(军事思想及军事历史、军队政治工作学、军事后勤学与军事装备学、军队指挥学、战略学、战术学)直接删除,不进入训练集。使用随机数按照4∶1将数据集划分为训练集和测试集,最终训练集文献数量为72106,测试集文献数量为18082,表1给出了各一级学科对应的训练集和测试集样本数量。