《表4 测试文本信息Tab.4 Test text information》

《表4 测试文本信息Tab.4 Test text information》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于子词信息的维吾尔语词项规范化》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从维吾尔语新闻网站天山网上爬取一些文本信息作为测试数据.为了更好地评价基于词的子信息在不同类别文本上的效果,采用其中的5个短文本来进行文本规范化测试,每个文本信息平均包括566个词,具体信息如表4所示,其中OOV(out of vocabulary)词表示集外词,这些文本涵盖了新闻、文学、体育、文化等领域.采用训练数据的处理方式,可以得到与规范化文本相对应的噪声文本.