《表5 基准实验和实验(10)均预测错误的结果统计》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《学术文本词汇功能识别——在关键词自动抽取中的应用》
注:(a/b)中,a为纵向比值,b为横向比值。
本研究对二分类实验中仅使用基础特征的基准实验和融合词汇功能特征后的最佳实验(实验(10))的预测错误进行了统计分析。实验(10)预测错误的词共有1468个,根据表5可知,有1173个词(约79.90%)是在仅使用基础特征时就出错的,且关键词比非关键词少,分别有441个和732个。在这些关键词中,词汇功能为“其他”的关键词有298个,为“研究方法”和“研究问题”的分别仅有134个和9个,也就是说,两次实验均未被正确分类的关键词中,大部分(约67.57%)的关键词并不具有问题或方法功能,根据加权策略,这些关键词的加权特征与基础特征并无差别,并没有改变对关键词的区分能力,因此在基准实验中无法被正确分类,在实验(10)中仍无法被预测正确。而在基准实验预测错误的3060个词中,共有1887个词(约61.67%)在融合词汇功能特征后被预测正确,包括774个非关键词和1113个关键词。从表6可以看出,重新预测正确的关键词比非关键词多,并且预测正确的关键词全部具有问题或方法功能,进一步说明通过词汇功能增强关键词的基础特征后,关键词更容易正确地被识别出来,分类效果自然得到较好的提升。
图表编号 | XD00206683800 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.24 |
作者 | 姜艺、黄永、夏义堃、李鹏程、陆伟 |
绘制单位 | 武汉大学信息管理学院、武汉大学信息检索与知识挖掘研究所、武汉大学信息管理学院、武汉大学信息检索与知识挖掘研究所、武汉大学信息资源研究中心、武汉大学信息管理学院、武汉大学信息检索与知识挖掘研究所、武汉大学信息管理学院、武汉大学信息检索与知识挖掘研究所 |
更多格式 | 高清、无水印(增值服务) |