《表1 三组论文的TTR值》
形符(token)类似于我们日常说的“词”,总形符数是语料库容量最常用的测量单位。类符(type)作为一个统计量,指语料库文本中任何一个独特的词性(word form)。重复出现的形符只能记作一个类符[9]。形符类符比,即TTR值,是衡量语篇文本词汇密度的常用办法,可说明文本中词汇的运用丰富度。TTR值越大,表明词汇的使用难度较低,词汇的多样性较少,反之,则表明词汇的使用种类较多且难度大。本文首先利用Emeditor文本编辑器,对高分组、中分组与低分组的语料进行文本降噪处理,清除原始语料中冗余内容,包括论文的致谢、目录及参考文献等部分,仅保留论文正文;然后,研究者将语料分别导入Antconc3.2.4w,依次点击“word list”与“start”按钮,得出三组论文形符与类符值。具体统计结果如表1:
图表编号 | XD0025860000 严禁用于非法目的 |
---|---|
绘制时间 | 2018.07.25 |
作者 | 杜双艳、常荣荣 |
绘制单位 | 合肥工业大学外国语学院、合肥工业大学外国语学院 |
更多格式 | 高清、无水印(增值服务) |