《表1《飘》的前5个高频词汇》

《表1《飘》的前5个高频词汇》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于词频统计算法的中英文词频分布研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

3)对于词典中未录入的词,采用基于汉字成词能力的HMM模型,同时使用viterbi算法。中文词汇按照BEMS四个状态标记,B代表begin,即开始位置,E代表end,即结束位置,M代表middle,表示中间位置,S代表singgle,是单独成词的位置,如山东可表示为BE,即山/B,是开始位置,东/E,是结束位置;对语料库进行初步训练,得到3个概率表,并结合viterbi算法,可以得到一个概率最大的BEMS序列,按照B开始,E结尾的方式,对分词的句子重新组合,就能得到最终的分词结果[14]。对《飘》的中英文对照版词频进行统计,《飘》的前5个高频词汇如表1所示。由表1可以看出,中英文在表达同义内容时,所使用词汇差别巨大,并未出现高频词汇一致性的现象,这与语言的特点有关。同时,英文的代词和介词在使用率上远高于其他词汇,而中文则不同,除代词外,量词在文章中也高频出现。虽然有诸多的差别,但在分布情况上仍需进一步验证。