《表6 候选词作关键词时最佳多特征集合实验的识别结果》

《表6 候选词作关键词时最佳多特征集合实验的识别结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《CRFs字角色标注方法在中文附加关键词抽取中的应用研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从识别结果可以看出,标引模型的识别效果不佳。即使是最佳的Z-L组F1值也仅达52.03%,相比仅基于字角色的Z组提高不过3%。因此,笔者对来源数据及模型标引的关键词进行观察分析,发现了两个问题:(1)2014年CSSCI的全部题名关键词共计有194822个,不同的关键词仅89680个,二者比值约为2.17,即每个关键词平均出现的次数为2次左右,或许会影响学习的效果。(2)笔者在模型标引的词语中发现,有一类词语与原关键词相互包含,且与原关键词关系密切,能揭示文章主题内容,本文将该类词语称为关键词的候选词。此外,作者关键词也存在着专指性过强或过弱的可能,由此无法完全否定候选词可以作为关键词的资格。如将候选词判定为正确识别,则准确率及F1值均能达到70%以上(以Z-L组实验为例,见表6)。因此,研究方法及标引模型具有一定的效用,笔者将在下节对Model-C进行应用。