《表2 文本与符号密度的网页提取》

《表2 文本与符号密度的网页提取》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于文本及符号密度的网页正文提取方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

如表2所示,对于凤凰网等国内的新闻网站,添加了标点符号因素后,其提取效果比原来的更加好,可以接近99%。这样已经达到预期标准,但是还剩下1%不知道在哪里出了问题。所以我们随机抽取了几篇提取出来的正文对相应的网页进行匹配,查看效果如何。