《表2 维汉语料Tab.2 Uyghur-Chinese corpora》
数据集采用CWMT 2015发布的维吾尔语-汉语新闻政务评测语料.首先对汉语进行分词,然后对分词后的汉语语料与维吾尔语语料进行预处理:将词、标点符号和数字进行切分,并将句子长度限制在80个词以下.然后通过Yang等[15]提出的维吾尔语形态切分方法对维吾尔语进行形态切分.将语料分为训练集、测试集、开发集,同时对所有的训练集、开发集、测试集中每个句子的句首、句尾分别添加与符号,代表句子的起止位置.语料样本情况如表2所示.
图表编号 | XD0044621500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.03.28 |
作者 | 李毓、杨雅婷、李晓、米成刚、董瑞 |
绘制单位 | 中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院大学计算机科学与技术学院、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 |
更多格式 | 高清、无水印(增值服务) |