《表2 维汉语料Tab.2 Uyghur-Chinese corpora》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《面向汉维机器翻译的神经网络语言模型》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

数据集采用CWMT 2015发布的维吾尔语-汉语新闻政务评测语料.首先对汉语进行分词，然后对分词后的汉语语料与维吾尔语语料进行预处理:将词、标点符号和数字进行切分，并将句子长度限制在80个词以下.然后通过Yang等[15]提出的维吾尔语形态切分方法对维吾尔语进行形态切分.将语料分为训练集、测试集、开发集，同时对所有的训练集、开发集、测试集中每个句子的句首、句尾分别添加与符号，代表句子的起止位置.语料样本情况如表2所示.

图表编号	XD0044621500 严禁用于非法目的
绘制时间	2019.03.28
作者	李毓、杨雅婷、李晓、米成刚、董瑞
绘制单位	中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院大学计算机科学与技术学院、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室
更多格式	高清、无水印（增值服务）