《表2 三类实体的词长、频数、比重》

《表2 三类实体的词长、频数、比重》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向先秦典籍的历史事件基本实体构件自动识别研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在上述规模为465,197个词汇的先秦语料库中,5300个人名共出现24,615次,出现次数最多的“晏子”有968个,这些人名实体占词汇总数的5.29%;地名共出现14,424次,占词汇总数的3.10%,1666种地名中“晉”出现了1463次;261种时间词共出现6042次,占词汇总数的1.30%,其中“今”出现715次。三类实体的词汇共占整个语料库词汇的9.70%,从实体这一语言单位的整体数量上来看,具有一定的代表性,识别这三类实体对于探究历史事件的构成具有一定的价值和意义。这三类实体的词长、频数、所占本类实体比重如表2所示。