《表2 汉字分类结果:融入汉字字形特征的中英神经机器翻译模型》
为了衡量字形特征和翻译模型相结合的程度,本文提出一种评测方法:汉字分类。该方法的主要思想如下:对于某一汉字m的字符向量Vcm,找到和该向量距离最短的字形特征向量Vsn,若m和n是同一汉字,则将m视为能够正确分类的汉字,否则将m视为分类错误的汉字。如表2所示,基于汉语字符的RNN能够正确分类的个数为0,这表明传统神经机器模型学到的字符向量确实不包含字形信息。辅助学习法能够正确分类的汉字占常用汉字的比例高达65%,远远大于Marta R.等提出的完全替代法,这表明本文提出的辅助学习法能够更好地将汉字字形特征融入神经机器翻译模型中。
图表编号 | XD0054904800 严禁用于非法目的 |
---|---|
绘制时间 | 2019.05.01 |
作者 | 蔡子龙、熊德意 |
绘制单位 | 苏州大学计算机科学与技术学院、苏州大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |