《表6 候选词作关键词时最佳多特征集合实验的识别结果》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《CRFs字角色标注方法在中文附加关键词抽取中的应用研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

从识别结果可以看出，标引模型的识别效果不佳。即使是最佳的Z-L组F1值也仅达52.03%，相比仅基于字角色的Z组提高不过3%。因此，笔者对来源数据及模型标引的关键词进行观察分析，发现了两个问题:（1）2014年CSSCI的全部题名关键词共计有194822个，不同的关键词仅89680个，二者比值约为2.17，即每个关键词平均出现的次数为2次左右，或许会影响学习的效果。（2）笔者在模型标引的词语中发现，有一类词语与原关键词相互包含，且与原关键词关系密切，能揭示文章主题内容，本文将该类词语称为关键词的候选词。此外，作者关键词也存在着专指性过强或过弱的可能，由此无法完全否定候选词可以作为关键词的资格。如将候选词判定为正确识别，则准确率及F1值均能达到70%以上（以Z-L组实验为例，见表6）。因此，研究方法及标引模型具有一定的效用，笔者将在下节对Model-C进行应用。

图表编号	XD0039045500 严禁用于非法目的
绘制时间	2019.02.28
作者	张海潮、王昊、唐慧慧、薛蔚
绘制单位	南京大学信息管理学院、江苏省数据工程与知识服务重点实验室、南京大学信息管理学院、江苏省数据工程与知识服务重点实验室、南京大学信息管理学院、江苏省数据工程与知识服务重点实验室、南京大学信息管理学院
更多格式	高清、无水印（增值服务）