《表3 数据集2语料库的划分》
(2)CWMT去重校正后的118 502句对蒙汉平行语料划分如表3所示,随机选取1 500句为验证集,1 000句为测试集。从116 002句训练集里选择具有上下文关系的篇章语料库,如表2所示,在本文使用的语料库里共有37个具有上下文关系的篇章语料库,涉及到小说、对话等,其中篇章上下文语料共有29 702句平行语料库。
图表编号 | XD00222621600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.10.15 |
作者 | 高芬、苏依拉、仁庆道尔吉 |
绘制单位 | 内蒙古工业大学信息工程学院、内蒙古工业大学信息工程学院、内蒙古工业大学信息工程学院 |
更多格式 | 高清、无水印(增值服务) |