《表4 英文未登录词构词特点》
由表3可知,对于各行业领域中文未登录词,其一般是由2~3个中文词组成的复合词。由表4可知,英文未登录词通常也是由2~3部分组成的复合词,但它的构词特点比中文词更灵活。中文词通常只与中文词组成复合词,而英文词既可以与中文词组成复合词,如C语言,也可以与数字组成复合词,如HTML5,甚至还可以与特殊字符组成复合词,如C#。Han LP因未能识别这些未登录词,将它们错误切分为若干个分词项。例如,将“深度学习”错误切分为“深度/学习”,将“J2EE”错误切分为“J/2/EE”。因此,若能根据未登录词构词特点,将分词结果中的分词项按照一定规则进行重组,再通过某种策略过滤,便可以识别各行业领域未登录词。
图表编号 | XD0067701400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 曾浩、詹恩奇、郑建彬、汪阳 |
绘制单位 | 武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室、武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室、武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室、武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室 |
更多格式 | 高清、无水印(增值服务) |