《表2 新协同训练方法在不同语料规模下的模型的最佳BLEU值Tab.2 The best BLEU scores of the co-training_new model under differen

《表2 新协同训练方法在不同语料规模下的模型的最佳BLEU值Tab.2 The best BLEU scores of the co-training_new model under differen   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《利用协同训练提高神经机器翻译系统的翻译性能》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:a,b,c,d,e表示语料数量分别为11.4万、8.8万、9.1万、8.6万、5.4万句对.

在fi-en、et-en和hu-en翻译任务上准备好5份平行语料(每组平行语料数量为11.4万句对),并针对不同方法在不同语料规模上分别进行了实验,总共进行了5组不同方法的实验.前4组实验的结果如表1所示,第5组实验的实验结果如表2所示.以下是对这5组实验的说明:第1组实验方法在表1中用“origin_data_enlarge”表示,翻译系统训练过程为:先用准备好的第1份语料训练出一个模型,接着用第1份加上第2份语料训练出第2个模型,如此反复,训练出5个不同语料数量规模的模型;第2组实验在表1中用“selftraining”表示,即第3.1节中的自训练方法在不同语料规模下训练出来的翻译模型:首先使用第1份语料训练出一个基础模型,接着使用训练好的模型对剩下的的4份语料的源端进行翻译,将源端语句翻译成对应的英语(en)目标端(此时假设目标端英语 (en)是未知的) ,然后将翻译的结果在基础模型对应的语料中进行扩充并重新训练模型.第3组实验方法在表1中用“co-training_old”表示,即第3.2节中的传统的统计机器翻译中使用到的协同训练方法:该方法先用第1份数据训练出基础模型,接着使用训练好的基础模型对接下来的4份语料进行翻译(这4份语料中的目标端仅用于接下来挑选翻译质量好的结果,即只作为参考翻译),并使用参考翻译挑选出多个翻译模型的多个翻译结果中质量最佳的一个(将翻译结果中的单词与参考翻译中的单词进行比较并统计翻译结果中的单词也在参考翻译中出现的数量,数量大的认为是翻译质量相对好的),进行语料扩充并重新训练出新的模型.第4组实验方法在表1中用“co-training_update”表示,即第3.3节中的新协同训练方法1.其与第3组实验的区别仅仅在于挑选翻译质量好的结果的过程中不再使用到参考翻译,而是利用单语语料训练出一个n-gram模型(本实验中n设置为4,单语语料使用本课题组内自己整理的英语端单语语料500万句对,本文中提到的n-gram模型都是相同的),使用该模型测试协同训练过程中多个翻译结果的句子的PPL,将PPL小的认为是翻译质量好的结果在原有语料上进行扩充并重新训练模型.第5组实验的实验方法即第4节介绍的新协同训练方法2,该方法主要使用源端单语语料,不再使用多源端相互平行语句.实验中首先利用第1份平行语料训练出基础翻译模型,接着使用训练好的翻译模型对剩余4份语料中的源端单语语料进行翻译(假设这4份语料中的目标端不存在),并使用n-gram模型测量基础翻译模型的翻译结果的PPL,将PPL不在同一数量级上的翻译结果去除(实验过程中发现翻译质量很差的句子的PPL都大于1 000,甚至超过10 000,而翻译质量相对好的句子的PPL从几十到几百不等,于是认为PPL超过1 000的句子极有可能存在极大的噪音,将其去除),进一步去除翻译结果中源端句子与目标端句子中句长比例超过一定倍数的句子(本文中认为“源端句长/目标端句长>3”或“目标端句长/源端句长>3”的句子是噪音大的语料,将其去除),并将噪音较低的平行语料结果在原语料基础上进行扩充并重新训练出翻译模型(对4份语料通过以上降噪方法得到的平行语料数量分别是8.8万、9.1万、8.6万、5.4万句对).