《表3 候选短语挖掘3个阶段对比》

《表3 候选短语挖掘3个阶段对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于统计特征的Quality Phrase挖掘方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
%

从5个文本语料库呈现的PR曲线可以看出,单使用频繁性一个准则进行N-Gram短语挖掘时,精确率和召回率的结果受频繁性阈值的影响极大,鲁棒性差。若设置的频繁性阈值较大,精确率可以达到较高的水平,但是召回率很低;相反,频繁性阈值设置较小时,召回率很高,可以达到90%以上,但是精确率明显下降。所以,单使用频繁性一个准则,很难达到精确率和召回率的平衡。为解决频繁性准则带来的问题,加入多词短语的组合性约束,两者的结合可以使5个数据集上的精确率稳定在一个较好的区间,基本维持在90%~100%,此时保证在精确率不明显下降的情况下,不断调节频繁性阈值来提升召回率,寻找最优的参数组合。在频繁N-Gram挖掘和多词短语组合性约束的基础上,增加单词短语的拼写检查可以进一步提高精确率,虽然拼写检查错误地排除了一部分真正的单词,导致召回率有所下降,但综合性指标F1-Score仍然是上升趋势。下面将5个文本语料库在3种递进组合(方法(1)表示频繁N-Gram挖掘,方法(2)表示频繁N-Gram挖掘+多词短语组合性约束,方法(3)表示频繁N-Gram挖掘+多词短语组合性约束+单词短语拼写检查)上的最优结果列举如表3所示。