《表2 5-Tag标记法:电商领域中有关物流评价中文分词的研究》
根据之前学者们的实验结论可发现,如果分词系统采用的模型是LCCRF,那么选取6-Tag标记法则可使分词的准确率和召回率达到最高。然而汉语中尤其是较短的评价数据中,词语是由5个及5个以上字组成的概率特别小。大部分评价数据的词语基本上都是4个或4个以下的汉字组成。因此,在6-Tag标记法中,不仅多出一个M2标记,而且还容易引起一些无用的特征函数,这些无用的特征函数会加大LCCRF训练过程中所消耗的时间与空间。因此本文采用了5-Tag标记法,即能够最大限度的降低无用的特征函数又能够完整的保留评价数据中所有的4字或4字以下词汇所蕴含的关联信息。表2是5-Tag法。
图表编号 | XD00107191700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.20 |
作者 | 钟静晨、祁云嵩 |
绘制单位 | 江苏科技大学计算机学院、江苏科技大学计算机学院 |
更多格式 | 高清、无水印(增值服务) |