《表2 文本与符号密度的网页提取》
如表2所示,对于凤凰网等国内的新闻网站,添加了标点符号因素后,其提取效果比原来的更加好,可以接近99%。这样已经达到预期标准,但是还剩下1%不知道在哪里出了问题。所以我们随机抽取了几篇提取出来的正文对相应的网页进行匹配,查看效果如何。
图表编号 | XD0061638300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.20 |
作者 | 洪鸿辉、丁世涛、黄傲、郭致远 |
绘制单位 | 武汉邮电科学研究院、武汉邮电科学研究院、武汉邮电科学研究院、武汉邮电科学研究院 |
更多格式 | 高清、无水印(增值服务) |