《表2 句中第i个字的特征模板》

《表2 句中第i个字的特征模板》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于弱标注数据的汉语分词领域移植》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

我们采用的特征模板如表2所示。其中,ci表示句子中的第i个字;N-gram特征信息表示这个字周围的信息;Type表示这个字属于Number,Punctuation,English还是Chinese;Identical表示第i个字和前面一个字的是否相同,这个特征捕捉周围字是否是叠词这一信息。