《表1 断句训练与测试集规模》

《表1 断句训练与测试集规模》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于BERT的古文断句研究与应用》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

因为无法获得现成语料,本文使用从网上获取的古文语料进行实验。文本类别包括史集、诗集、儒藏、集藏、子藏和道藏。根据实验目的不同,对语料按类和文本数量进行了归并。验证小规模语料情形的《史藏》训练集只包括单一文体类别;验证大规模语料情形的混合训练集使用《史藏》《诗藏》《儒藏》《集藏》和《子藏》五种类别,但将《道藏》排除在外。任何测试集中的文本都不包括在任何一种训练集中,也不会参与任何预训练任务。测试集类别与训练集对应。最后,我们以独立的《道藏》文本验证本文工作泛化能力。为获得更为可靠的结果,我们选用的语料规模,无论是训练还是测试均远大于包括王博立等[10]在内的前人使用的数量。例如,我们的测试集合在千万字量级,而之前的工作测试集合仅数十万字而已。详情如表1所示。