《表2 标点训练与测试集规模》
标点任务由于获取的带标点古文文本较为杂乱,多种文本类别并存,标点使用非常不一致,有只有逗号、句号的,也有使用了所有现代标点符号的。我们最终仅使用相对标点质量较高的《道藏》文本进行标点任务的训练和测试。《道藏》标点语料的训练集与测试集规模如表2所示。
图表编号 | XD00109144500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.01 |
作者 | 俞敬松、魏一、张永伟 |
绘制单位 | 北京大学软件与微电子学院、北京大学软件与微电子学院、中国社会科学院语言研究所 |
更多格式 | 高清、无水印(增值服务) |