《表5 基准实验和实验(10)均预测错误的结果统计》

《表5 基准实验和实验(10)均预测错误的结果统计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《学术文本词汇功能识别——在关键词自动抽取中的应用》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:(a/b)中,a为纵向比值,b为横向比值。

本研究对二分类实验中仅使用基础特征的基准实验和融合词汇功能特征后的最佳实验(实验(10))的预测错误进行了统计分析。实验(10)预测错误的词共有1468个,根据表5可知,有1173个词(约79.90%)是在仅使用基础特征时就出错的,且关键词比非关键词少,分别有441个和732个。在这些关键词中,词汇功能为“其他”的关键词有298个,为“研究方法”和“研究问题”的分别仅有134个和9个,也就是说,两次实验均未被正确分类的关键词中,大部分(约67.57%)的关键词并不具有问题或方法功能,根据加权策略,这些关键词的加权特征与基础特征并无差别,并没有改变对关键词的区分能力,因此在基准实验中无法被正确分类,在实验(10)中仍无法被预测正确。而在基准实验预测错误的3060个词中,共有1887个词(约61.67%)在融合词汇功能特征后被预测正确,包括774个非关键词和1113个关键词。从表6可以看出,重新预测正确的关键词比非关键词多,并且预测正确的关键词全部具有问题或方法功能,进一步说明通过词汇功能增强关键词的基础特征后,关键词更容易正确地被识别出来,分类效果自然得到较好的提升。