《表1 语料统计表:基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究》

《表1 语料统计表:基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

目前为止,由于维吾尔语词干提取公开的标注数据集或语料库还未见公开,因此本文将从天山网爬取新闻数据,并进行人工校对和人工提取词干(数据大小:15万),按词长进行由长到短的排序,并选出其中最长的1万个单词进行预处理,采用交叉验证法对标记语料进行分割产生训练集、测试集和验证集(分割比为0.75∶0.15∶0.1),语料具体统计如表1所示。