《表2 维汉语料Tab.2 Uyghur-Chinese corpora》

《表2 维汉语料Tab.2 Uyghur-Chinese corpora》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向汉维机器翻译的神经网络语言模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

数据集采用CWMT 2015发布的维吾尔语-汉语新闻政务评测语料.首先对汉语进行分词,然后对分词后的汉语语料与维吾尔语语料进行预处理:将词、标点符号和数字进行切分,并将句子长度限制在80个词以下.然后通过Yang等[15]提出的维吾尔语形态切分方法对维吾尔语进行形态切分.将语料分为训练集、测试集、开发集,同时对所有的训练集、开发集、测试集中每个句子的句首、句尾分别添加符号,代表句子的起止位置.语料样本情况如表2所示.