《表1 断句训练与测试集规模》
因为无法获得现成语料,本文使用从网上获取的古文语料进行实验。文本类别包括史集、诗集、儒藏、集藏、子藏和道藏。根据实验目的不同,对语料按类和文本数量进行了归并。验证小规模语料情形的《史藏》训练集只包括单一文体类别;验证大规模语料情形的混合训练集使用《史藏》《诗藏》《儒藏》《集藏》和《子藏》五种类别,但将《道藏》排除在外。任何测试集中的文本都不包括在任何一种训练集中,也不会参与任何预训练任务。测试集类别与训练集对应。最后,我们以独立的《道藏》文本验证本文工作泛化能力。为获得更为可靠的结果,我们选用的语料规模,无论是训练还是测试均远大于包括王博立等[10]在内的前人使用的数量。例如,我们的测试集合在千万字量级,而之前的工作测试集合仅数十万字而已。详情如表1所示。
图表编号 | XD00109144300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.01 |
作者 | 俞敬松、魏一、张永伟 |
绘制单位 | 北京大学软件与微电子学院、北京大学软件与微电子学院、中国社会科学院语言研究所 |
更多格式 | 高清、无水印(增值服务) |