《表3 不同算法在5 000样本集上实验结果对比》

《表3 不同算法在5 000样本集上实验结果对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于文本相似度的网页新闻标题自动抽取算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

其中,Se表示自动抽取算法抽取的新闻标题所构成的字符集合;Sl表示人工标注新闻标题所构成的字符集合;Precision是指正确抽取出的新闻文档数与抽取出的总文档数的比率,主要用来衡量抽取准确率;Recall是指抽取出的总文档数和所有测试新闻文档总数的比率,主要用来衡量抽取的召回率﹒准确率(Precision,简称P)和召回率(Recall,简称R)被广泛用于信息检索领域的质量度量指标,P和R指标有时会出现矛盾情况﹒因此,需要综合考虑它们,最常见的方法就是F-measure,它是Precision和Recall加权调和平均的结果﹒当参数取1时,就是常见的F1,它综合了P和R的结果,当F1值较高时,则能说明算法性能较好﹒若实验数据量越大,数据集分布越平衡,则评测指标的可信度也会越高﹒最后通过计算,可以得出自动抽取算法在整个样本数据集上的平均准确率P、平均召回率R以及平均F1值,实验结果分别如表2~表3所示﹒