《表1《飘》的前5个高频词汇》
3)对于词典中未录入的词,采用基于汉字成词能力的HMM模型,同时使用viterbi算法。中文词汇按照BEMS四个状态标记,B代表begin,即开始位置,E代表end,即结束位置,M代表middle,表示中间位置,S代表singgle,是单独成词的位置,如山东可表示为BE,即山/B,是开始位置,东/E,是结束位置;对语料库进行初步训练,得到3个概率表,并结合viterbi算法,可以得到一个概率最大的BEMS序列,按照B开始,E结尾的方式,对分词的句子重新组合,就能得到最终的分词结果[14]。对《飘》的中英文对照版词频进行统计,《飘》的前5个高频词汇如表1所示。由表1可以看出,中英文在表达同义内容时,所使用词汇差别巨大,并未出现高频词汇一致性的现象,这与语言的特点有关。同时,英文的代词和介词在使用率上远高于其他词汇,而中文则不同,除代词外,量词在文章中也高频出现。虽然有诸多的差别,但在分布情况上仍需进一步验证。
图表编号 | XD00136010200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.01 |
作者 | 李杰、孙仁诚 |
绘制单位 | 青岛大学计算机科学技术学院、青岛大学计算机科学技术学院 |
更多格式 | 高清、无水印(增值服务) |