《表7 语法特征表:基于随机森林算法的对外汉语文本可读性评估》
以上“基础特征”“词性特征”“等级特征”都是基于统计的特征,并没有提取语义、语法等层次的特征。试想一下,在学习英语时,即使在所有单词都掌握了的情况下,如果句子的语法复杂,我们仍然会对这句英文一知半解,无法真正掌握句子的意思。同样,一个语法结构复杂的中文句子亦会对L2学习者造成困惑,即这个句子的难度较高、可读性较低。所以接下来着重介绍一下“语法特征”的提取。我们采用斯坦福NLP小组研发的斯坦福解析器进行对外汉语文本的语法分析,具体工具使用的是NLTK提供的斯坦福语法解析器的python接口。该工具可以将一句话分析成语法树,将句子结构用图形表示,代表了句子的推导结果,可用于分析句子语法结构。简单来说,语法树就是按照某一规则进行推导后形成的树状图,树状图的层级是指将语法分析的结果转换为树状图后各节点的层次,以此类推[31]。语法分析树的结构层次如图1所示,接下来我们根据语法树的分析结果提取了语法特征12个,如表7所示。
图表编号 | XD0068516800 严禁用于非法目的 |
---|---|
绘制时间 | 2019.07.10 |
作者 | 杨文娣、曾致中 |
绘制单位 | 华中师范大学国家数字化学习工程技术研究中心、华中师范大学国家数字化学习工程技术研究中心 |
更多格式 | 高清、无水印(增值服务) |