《表2 BPE模型在机器翻译任务中的实验性能对比》
由表1中数据可知,使用NBROM重新评估统计翻译模型中的词汇化权重,机器翻译性能有明显的提升;在训练数据规模为50 k和词汇表大小为30 k的条件下,BLEU分值提升了0.49~0.59,证明了本模型的有效性。其中NBROM结合BPE模型获得了本实验中最高的BLEU值38.75;该方法将所有低频OOV词汇切分为字词形式,在一定程度上增加了稀疏词汇中字词的共现次数,减轻OOV词汇对于实验性能的影响,可以有效预测未登录词汇的生成概率,相比于基线系统提升了0.59,在本实验中性能提升最明显。对于NBROM结合的UNK和MultiClass模型,后者稍优于前者的主要原因在于:UNK模型对于所有的OOV词汇使用统一的符号[UNK]进行替换,赋予其相同权重;而MultiClass模型对词汇类别进行分类,在预测时充分考虑到词类信息,因而可以进一步提高OOV词汇的预测准确率。实验结果表明,基于双语短语的语义相关性和内部词汇匹配度等相关信息,本文提出的双语关联度优化模型可以在使用小规模的训练数据和词汇表的条件下有效地提高了汉语到维语的机器翻译任务性能。BPE模型在机器翻译任务中的实验性能对比如表2所示。
图表编号 | XD00133919200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.01 |
作者 | 潘一荣、李晓、杨雅婷、董瑞 |
绘制单位 | 中国科学院新疆理化技术研究所、中国科学院大学、新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所、新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所、新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所、新疆民族语音语言信息处理实验室 |
更多格式 | 高清、无水印(增值服务) |