《表1 SCI-BR和SCI-CN论文词汇复杂度整体对比》
经典可读性公式(Flesch 1948)与词长(即音节数)呈现反比关系,即词越长,文本的可读性越弱。而从表1的词长均值数据可以看出,SCI-BR的平均词长为1.67左右,SCI-CN的平均词长为1.75左右,即SCI-CN的平均词长大于SCI-BR。从两库具体的词长分布情况看,词长小于等于2的词在SCI-BNC中出现的频率要略高于SCI-CN;词长大于2小于等于6的词,在SCI-CN出现的频率要高于SCI-BNC;当词长大于7时,两库的词汇频率基本相同。由于词长小于等于2的词一般是单音节或双音节词,且这些词往往是高频的功能词,如介词、代词、助动词、连词以及不定式标记等,因此可以得出以下结论:BR作者较多使用音节短的功能词,而CN作者倾向于使用音节长的实义词。再以四音节词为例,CN作者使用频率最高的是information(354次,列第74位);BR作者使用频率最高的则是analysis(151次,列第217位)。这也在一定程度上反映出了CN作者比BR作者更偏好使用多音节词,导致较弱的可读性。
图表编号 | XD00215936800 严禁用于非法目的 |
---|---|
绘制时间 | 2018.11.01 |
作者 | 孙博洋、乐明 |
绘制单位 | 浙江大学 |
更多格式 | 高清、无水印(增值服务) |