《表4 词性特征表1:基于随机森林算法的对外汉语文本可读性评估》

《表4 词性特征表1:基于随机森林算法的对外汉语文本可读性评估》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于随机森林算法的对外汉语文本可读性评估》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

词的语言学特征在表征文本方面也是至关重要的,例如不同词性的词对文本的表征能力是不同的[29]。所以,我们使用PyNLPIR (NLPIR汉语分词系统提供的Python接口)进行词性标注。NLPIR汉语分词系统提供的《计算所汉语词性标记集》分别有一类22个、二类66个、三类11个(共计99个),基本满足了本研究提取词性特征的需求,本文提取了所有的一类词性(如表4所示)以及国内外第二语言文本可读性评估重要特征(如表5所示),共计34个,但后期将特征全部提取出来后发现“字符串”特征值全部为0,所以该特征无意义,因此去除这一特征,词性特征最终有33个。