《表3 语料对齐结果Tab.3 Corpus alignment result》
本文实验共获取了TED、apdf这2个网站共83 909条中印平行语料,人工审核44 160条。取人工审核的44 160条中印平行语料作为数据集用于训练长度模型,取其中的65%(总计28 704对)作为训练集,另35%(总计15 456对)作为测试集。实验包括段落对齐、句对齐和“段落对齐+句对齐”,结果见表3。同时,本文实验以Gale-Church提出的传统句对齐算法作为句对齐实验的对比实验,结果见表4。
图表编号 | XD0032539400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.01.25 |
作者 | 郑铿涛、林楠铠、付颖雯、王连喜、蒋盛益 |
绘制单位 | 广东外语外贸大学信息科学与技术学院、广东外语外贸大学信息科学与技术学院、广东外语外贸大学信息科学与技术学院、广州市非通用语种智能处理重点实验室(广东外语外贸大学)、广东外语外贸大学信息科学与技术学院、广州市非通用语种智能处理重点实验室(广东外语外贸大学) |
更多格式 | 高清、无水印(增值服务) |