《表1 老维语字母转换为拉丁字母的可替换形式Tab.1 Possible Latin alphabet alternatives of Uyghur Perso-Arabic alphabet》
一项关于维吾尔族民众使用拉丁字母情况的调查显示,170名受访者中有39.8%不使用拉丁字母,29.7%使用标准的拉丁字母,还有30.5%使用不规则的拉丁字母,例如“X”、“SH”和“爦”都可能作为老维语字母的转换[7].在老维语的32个字母中有15个存在2~4个可能的拉丁字母转换[7],这15个字母的转换方式如表1所示.这种不规则转换会产生严重的文本歧义现象(如表2所示),给后续自然语言处理操作的有效性带来很大的影响.因此,本研究主要针对拉丁维语中的不规则转换来进行文本规范化处理.
图表编号 | XD0044622700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.03.28 |
作者 | 张新路、王磊、杨雅婷、米成刚 |
绘制单位 | 中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院大学计算机科学与技术学院、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 |
更多格式 | 高清、无水印(增值服务) |