《表4 英文未登录词构词特点》

《表4 英文未登录词构词特点》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于扩展规则与统计特征的未登录词识别》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由表3可知,对于各行业领域中文未登录词,其一般是由2~3个中文词组成的复合词。由表4可知,英文未登录词通常也是由2~3部分组成的复合词,但它的构词特点比中文词更灵活。中文词通常只与中文词组成复合词,而英文词既可以与中文词组成复合词,如C语言,也可以与数字组成复合词,如HTML5,甚至还可以与特殊字符组成复合词,如C#。Han LP因未能识别这些未登录词,将它们错误切分为若干个分词项。例如,将“深度学习”错误切分为“深度/学习”,将“J2EE”错误切分为“J/2/EE”。因此,若能根据未登录词构词特点,将分词结果中的分词项按照一定规则进行重组,再通过某种策略过滤,便可以识别各行业领域未登录词。