《表1 网页提取效果:基于文本及符号密度的网页正文提取方法》
除了CLEANEVAL这个数据源,我们使用爬虫技术下载了凤凰网,参考消息,新浪新闻网页。每个网站下载1 500个网页,同时,对每个网页使用正则匹配把人眼看到的正文内容保存下来,然后同样使用LCS对本文的正文提取算法进行判断。网页正文提取结果如表1所示。
图表编号 | XD0061638500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.20 |
作者 | 洪鸿辉、丁世涛、黄傲、郭致远 |
绘制单位 | 武汉邮电科学研究院、武汉邮电科学研究院、武汉邮电科学研究院、武汉邮电科学研究院 |
更多格式 | 高清、无水印(增值服务) |