《表4 增量式自学习部分迭代的BLEU值Tab.4 BLEU scores in iterations of incremental self-learning》
注:C0代表ENJA,JAEN,JAZH,ZHEN,ZHJA,ENZH几个数据集总和.
在增量式自学习过程中,本研究采用的策略:首先,使用原始数据即评测提供的数据进行模型的训练,将该模型作为基线系统;然后,在该基线系统的基础上尝试加入不同的数据进行训练;最后,以BLEU值作为参考,观察在开发集上日英翻译的性能.如表4,仅列举了增量式自学习方法部分迭代轮次的大致情况,展示了数据规模逐渐加大,以及在同一轮次加入不一样的数据,导致模型训练的结果不一样.可以看出第一轮在基线的基础上加入JAEN_ZHEN-ZH2JA,其翻译效果提升明显.第二轮在加入JAEN_MULTI-ZHEN-ZH2JA后,对翻译也有帮助,但是第三轮实验1和2分别加入数据集JAEN_JAZH-ZH2EN和数据集JAEN_MULTI-JAZH-ZH2EN后,BLEU值逐渐下降,说明在某种程度上这2个数据不能为翻译提供有用的信息.第四轮时在C4数据集上接着加入数据集JAEN_MULTI-ZHEN-ZH2JA-ZH2EN,此时BLEU值与第二轮相同,所以该数据集可以做更多实验进行观察.
图表编号 | XD0044621000 严禁用于非法目的 |
---|---|
绘制时间 | 2019.03.28 |
作者 | 周张萍、黄荣城、王博立、胡金铭、史晓东、陈毅东 |
绘制单位 | 厦门大学信息科学与技术学院、厦门大学信息科学与技术学院、厦门大学信息科学与技术学院、厦门大学信息科学与技术学院、厦门大学信息科学与技术学院、厦门大学信息科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |