《表1《淮南子》语料库、CTB9语料库和本研究中的清代医书语料库词频对比 (%)》
将本文构建的语料库与宾州中文树库9.0版(CTB9)以及《淮南子》语料库进行词频统计发现,中医古籍与现代汉语相比具有其自身特点,和上古时期的汉语也有显著差异。清代医籍语料库中的单字词占66%,双字词占27%。虽然双字词所占比例相较于现代汉语而言仍然相差近20%,但比上古时期《淮南子》中的双字词比例提高了近一倍,这体现了在汉语语言发展的进程中由单字词逐步向多字词发展的特点。另外值得注意的是,中医古籍包含的四字词(482个)甚至比三字词(471个)还略多,这个特征体现了中医古籍中讲求术语对称的特点,同时也说明了单独构建古代医书语料库和分词模型的必要性。
图表编号 | XD005682700 严禁用于非法目的 |
---|---|
绘制时间 | 2018.10.01 |
作者 | 付璐、李思、李明正、朱彦 |
绘制单位 | 中国中医科学院中国医史文献研究所、北京邮电大学信息与通信工程学院、北京邮电大学信息与通信工程学院、中国中医科学院中医药信息研究所 |
更多格式 | 高清、无水印(增值服务) |