《表1 平行语料:基于非自回归方法的维汉神经机器翻译》
数据集采用CWMT2017发布的维吾尔语-汉语新闻政务评测语料,英-德平行语料训练集采用WMT2015(4 500 000)和IWSLT201616(190 000)。对于WMT2015采用newstest2014和newstest2013作为测试集和开发集;对于IWSLT2016采用newstest2013作为测试集和开发集。对所有平行语料的所有句子都使用字节对编码(Byte Pair Encoding,BPE)算法[17]进行标记并分割成子单词单元。将学习到的规则应用于所有的训练集、开发集和测试集[18]。维汉语料和IWSLT2016英-德语料共享大小为40 000的词汇表,WMT2015英-德语料共享大小为60 000的词汇表。数据集见表1所示。
图表编号 | XD00163198700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.10 |
作者 | 朱相荣、王磊、杨雅婷、董瑞、张俊 |
绘制单位 | 中国科学院新疆理化技术研究所、中国科学院大学、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所、中国科学院大学、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所、中国科学院大学、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所、中国科学院大学、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验 |
更多格式 | 高清、无水印(增值服务) |