《表4 各种语料特征加入后技能词抽取的性能》

《表4 各种语料特征加入后技能词抽取的性能》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的中文网络招聘文本中的技能词抽取方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从表4可看出,在Bi-LSTM-CRF模型的输入层中分别加入位置特征(seg)、词性特征(pos)和技能词的上下文特征(con)时,相比于Bi-LSTM-CRF模型的F1值分别提升了0.44%、0.35%和7.66%。其中,加入上下文特征获得的提升最大,这是因为:由于招聘语料的句法结构比较单一,技能词的上下文特征较为固定,充分挖掘技能词上下文特征能较好地反映技能词在语料中出现的位置,能有效地抽取出“……具备数据库开发能力……”“……常用的Java、C、python等编程语言……”这类具有明显句法结构的技能词,从而使训练出的模型更具有泛化能力。而字符的位置特征(seg)和词性特征(pos)的加入,虽然提高了F1值,但提升的幅度不是很大。其中可能的原因是:词语的位置特征(seg)是通过对句子进行jieba分词,再提取每个字符与所在词语的相对位置而得到的。中文分词结果的不准确性影响了字符位置特征的提取,从而对技能词的抽取带来了一定程度的干扰。对于词性特征(pos),则可能是因为jieba分词无法标注出英文字符的词性,以及技能词的构成在词法特征上规律性不强。