《表1 断句训练与测试集规模》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于BERT的古文断句研究与应用》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

因为无法获得现成语料，本文使用从网上获取的古文语料进行实验。文本类别包括史集、诗集、儒藏、集藏、子藏和道藏。根据实验目的不同，对语料按类和文本数量进行了归并。验证小规模语料情形的《史藏》训练集只包括单一文体类别；验证大规模语料情形的混合训练集使用《史藏》《诗藏》《儒藏》《集藏》和《子藏》五种类别，但将《道藏》排除在外。任何测试集中的文本都不包括在任何一种训练集中，也不会参与任何预训练任务。测试集类别与训练集对应。最后，我们以独立的《道藏》文本验证本文工作泛化能力。为获得更为可靠的结果，我们选用的语料规模，无论是训练还是测试均远大于包括王博立等[10]在内的前人使用的数量。例如，我们的测试集合在千万字量级，而之前的工作测试集合仅数十万字而已。详情如表1所示。

图表编号	XD00109144300 严禁用于非法目的
绘制时间	2019.11.01
作者	俞敬松、魏一、张永伟
绘制单位	北京大学软件与微电子学院、北京大学软件与微电子学院、中国社会科学院语言研究所
更多格式	高清、无水印（增值服务）