《表6 候选词作关键词时最佳多特征集合实验的识别结果》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《CRFs字角色标注方法在中文附加关键词抽取中的应用研究》
从识别结果可以看出,标引模型的识别效果不佳。即使是最佳的Z-L组F1值也仅达52.03%,相比仅基于字角色的Z组提高不过3%。因此,笔者对来源数据及模型标引的关键词进行观察分析,发现了两个问题:(1)2014年CSSCI的全部题名关键词共计有194822个,不同的关键词仅89680个,二者比值约为2.17,即每个关键词平均出现的次数为2次左右,或许会影响学习的效果。(2)笔者在模型标引的词语中发现,有一类词语与原关键词相互包含,且与原关键词关系密切,能揭示文章主题内容,本文将该类词语称为关键词的候选词。此外,作者关键词也存在着专指性过强或过弱的可能,由此无法完全否定候选词可以作为关键词的资格。如将候选词判定为正确识别,则准确率及F1值均能达到70%以上(以Z-L组实验为例,见表6)。因此,研究方法及标引模型具有一定的效用,笔者将在下节对Model-C进行应用。
图表编号 | XD0039045500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.02.28 |
作者 | 张海潮、王昊、唐慧慧、薛蔚 |
绘制单位 | 南京大学信息管理学院、江苏省数据工程与知识服务重点实验室、南京大学信息管理学院、江苏省数据工程与知识服务重点实验室、南京大学信息管理学院、江苏省数据工程与知识服务重点实验室、南京大学信息管理学院 |
更多格式 | 高清、无水印(增值服务) |