《表1 实验效果:基于校园分布式主题网络爬虫技术基础框架实现研究》
本文基于网络爬虫的高校网络信息动态搜索基础框架的爬行策略通过采用不同的爬行策略和匹配方法实现,为验证其有效性,对上述爬行策略进行测试,并同传统爬行队列方式的采集结果进行对比,测试结果表明使用文档相似度算法的内容评价爬行策略是以页面内容为依据完成爬取,保证了搜索结果的全面程度,但主题的重要度一般;基于链接结构评价的爬行策略通过量化页面的重要性实现Page Rank值的获取,保证了主题的重要度,但搜索结果的全面程度不高;主题网络爬虫技术采用使用两种爬行策略时表现出了较平衡的数据采集特性,保证了主题的重要度及搜索结果的全面程度,系统针对运用两种策略采集不同主题词的结果进行比较,在检索过程中不同主题词采用基于内容评价策略的准确率较高,结果如表1所示。
图表编号 | XD00220318400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.10.30 |
作者 | 袁小玲 |
绘制单位 | 陕西财经职业技术学院@袁小玲 |
更多格式 | 高清、无水印(增值服务) |