《表1 九种先秦文献及其注疏文献文字规模》

《表1 九种先秦文献及其注疏文献文字规模》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于注疏的先秦文献信息处理探索》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

先秦文献数量众多,但篇幅相差较大,有些篇幅达到几十万字,有些则只有几千字。从信息处理研究的角度出发,文本的字数规模应越多越好,利用主流的机器学习技术时,文本长度不足容易出现过度学习或数据稀疏的现象;在此基础上综合考虑文献的重要程度,我们选取了《尚书》等9种先秦文献及其注疏文献,并对其进行了文字及小句的数量、分布、增长、覆盖度等统计量的对比分析。这些先秦文献及其注疏文献的文字规模大致如表1所示。需要说明的是,表1中的《国语》《周礼》并没有收录其注疏,从而方便考察有无注疏对于先秦文献信息处理作用的大小。