《表4 测试文本信息Tab.4 Test text information》
从维吾尔语新闻网站天山网上爬取一些文本信息作为测试数据.为了更好地评价基于词的子信息在不同类别文本上的效果,采用其中的5个短文本来进行文本规范化测试,每个文本信息平均包括566个词,具体信息如表4所示,其中OOV(out of vocabulary)词表示集外词,这些文本涵盖了新闻、文学、体育、文化等领域.采用训练数据的处理方式,可以得到与规范化文本相对应的噪声文本.
图表编号 | XD0044622300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.03.28 |
作者 | 张新路、王磊、杨雅婷、米成刚 |
绘制单位 | 中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院大学计算机科学与技术学院、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 |
更多格式 | 高清、无水印(增值服务) |