《表6 筛选前后语料训练的翻译系统对比》
本节我们添加了一组实验来验证所提方法对于筛选高质量语料的有效性。使用引入源语言信息的方法对规模为200万的中英双语语料进行检测机器翻译译文,为了更接近于真实场景中机器翻译译文的分布,在双语语料中设置约20万机器翻译译文。经过实验检测出双语语料中有16.9万为机器翻译译文,将检测出的机器翻译译文从语料中删除,然后将过滤后的双语语料用于机器翻译训练。在相同的参数和模型下分别使用过滤前后的语料训练翻译模型,并对训练后的翻译模型测试性能。实验结果具体参见以下示例(表6)。
图表编号 | XD00193205400 严禁用于非法目的 |
---|---|
绘制时间 | |
作者 | 田科、张家俊 |
绘制单位 | 中国科学院自动化研究所模式识别国家重点实验室、中国科学院大学人工智能学院、中国科学院自动化研究所模式识别国家重点实验室、中国科学院大学人工智能学院 |
更多格式 | 高清、无水印(增值服务) |