《表1《淮南子》语料库、CTB9语料库和本研究中的清代医书语料库词频对比 (%)》

《表1《淮南子》语料库、CTB9语料库和本研究中的清代医书语料库词频对比 (%)》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《以清代医籍为例探讨中医古籍分词规范标准》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

将本文构建的语料库与宾州中文树库9.0版(CTB9)以及《淮南子》语料库进行词频统计发现,中医古籍与现代汉语相比具有其自身特点,和上古时期的汉语也有显著差异。清代医籍语料库中的单字词占66%,双字词占27%。虽然双字词所占比例相较于现代汉语而言仍然相差近20%,但比上古时期《淮南子》中的双字词比例提高了近一倍,这体现了在汉语语言发展的进程中由单字词逐步向多字词发展的特点。另外值得注意的是,中医古籍包含的四字词(482个)甚至比三字词(471个)还略多,这个特征体现了中医古籍中讲求术语对称的特点,同时也说明了单独构建古代医书语料库和分词模型的必要性。