《表1 网页提取效果:基于文本及符号密度的网页正文提取方法》

《表1 网页提取效果:基于文本及符号密度的网页正文提取方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于文本及符号密度的网页正文提取方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

除了CLEANEVAL这个数据源,我们使用爬虫技术下载了凤凰网,参考消息,新浪新闻网页。每个网站下载1 500个网页,同时,对每个网页使用正则匹配把人眼看到的正文内容保存下来,然后同样使用LCS对本文的正文提取算法进行判断。网页正文提取结果如表1所示。