《表1 实验效果:基于校园分布式主题网络爬虫技术基础框架实现研究》

《表1 实验效果:基于校园分布式主题网络爬虫技术基础框架实现研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于校园分布式主题网络爬虫技术基础框架实现研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文基于网络爬虫的高校网络信息动态搜索基础框架的爬行策略通过采用不同的爬行策略和匹配方法实现,为验证其有效性,对上述爬行策略进行测试,并同传统爬行队列方式的采集结果进行对比,测试结果表明使用文档相似度算法的内容评价爬行策略是以页面内容为依据完成爬取,保证了搜索结果的全面程度,但主题的重要度一般;基于链接结构评价的爬行策略通过量化页面的重要性实现Page Rank值的获取,保证了主题的重要度,但搜索结果的全面程度不高;主题网络爬虫技术采用使用两种爬行策略时表现出了较平衡的数据采集特性,保证了主题的重要度及搜索结果的全面程度,系统针对运用两种策略采集不同主题词的结果进行比较,在检索过程中不同主题词采用基于内容评价策略的准确率较高,结果如表1所示。