《表2 5-Tag标记法:电商领域中有关物流评价中文分词的研究》

《表2 5-Tag标记法:电商领域中有关物流评价中文分词的研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《电商领域中有关物流评价中文分词的研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

根据之前学者们的实验结论可发现,如果分词系统采用的模型是LCCRF,那么选取6-Tag标记法则可使分词的准确率和召回率达到最高。然而汉语中尤其是较短的评价数据中,词语是由5个及5个以上字组成的概率特别小。大部分评价数据的词语基本上都是4个或4个以下的汉字组成。因此,在6-Tag标记法中,不仅多出一个M2标记,而且还容易引起一些无用的特征函数,这些无用的特征函数会加大LCCRF训练过程中所消耗的时间与空间。因此本文采用了5-Tag标记法,即能够最大限度的降低无用的特征函数又能够完整的保留评价数据中所有的4字或4字以下词汇所蕴含的关联信息。表2是5-Tag法。