《表1 九种先秦文献及其注疏文献文字规模》
先秦文献数量众多,但篇幅相差较大,有些篇幅达到几十万字,有些则只有几千字。从信息处理研究的角度出发,文本的字数规模应越多越好,利用主流的机器学习技术时,文本长度不足容易出现过度学习或数据稀疏的现象;在此基础上综合考虑文献的重要程度,我们选取了《尚书》等9种先秦文献及其注疏文献,并对其进行了文字及小句的数量、分布、增长、覆盖度等统计量的对比分析。这些先秦文献及其注疏文献的文字规模大致如表1所示。需要说明的是,表1中的《国语》《周礼》并没有收录其注疏,从而方便考察有无注疏对于先秦文献信息处理作用的大小。
图表编号 | XD00147288000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.20 |
作者 | 梁社会、徐润华 |
绘制单位 | 南京师范大学国际文化教育学院、金陵科技学院人文学院 |
更多格式 | 高清、无水印(增值服务) |