《表7 语法特征表:基于随机森林算法的对外汉语文本可读性评估》

《表7 语法特征表:基于随机森林算法的对外汉语文本可读性评估》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于随机森林算法的对外汉语文本可读性评估》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

以上“基础特征”“词性特征”“等级特征”都是基于统计的特征,并没有提取语义、语法等层次的特征。试想一下,在学习英语时,即使在所有单词都掌握了的情况下,如果句子的语法复杂,我们仍然会对这句英文一知半解,无法真正掌握句子的意思。同样,一个语法结构复杂的中文句子亦会对L2学习者造成困惑,即这个句子的难度较高、可读性较低。所以接下来着重介绍一下“语法特征”的提取。我们采用斯坦福NLP小组研发的斯坦福解析器进行对外汉语文本的语法分析,具体工具使用的是NLTK提供的斯坦福语法解析器的python接口。该工具可以将一句话分析成语法树,将句子结构用图形表示,代表了句子的推导结果,可用于分析句子语法结构。简单来说,语法树就是按照某一规则进行推导后形成的树状图,树状图的层级是指将语法分析的结果转换为树状图后各节点的层次,以此类推[31]。语法分析树的结构层次如图1所示,接下来我们根据语法树的分析结果提取了语法特征12个,如表7所示。