《表1 典型网站的代表性反爬虫措施栏目的应用策略》

《表1 典型网站的代表性反爬虫措施栏目的应用策略》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《国外科技网站反爬虫研究及数据获取对策研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在用爬虫工具爬取数据时,经常会遇到数据虽然在浏览器上显示但却抓取不到的情况,其原因也许是向服务器提交不恰当的表单被拒绝,也许是需要注册才能访问、IP地址已经被限制请求、复杂的验证码拦截等。我们共分析了50个国外科技门户网站,共133条信息源,其中网站栏目也叫“爬虫入口”(同一个网站包含多个信息源,但同一网站不同信息源的反爬虫策略可能不同,例如网站的文献类栏目跟视频类栏目反爬虫策略不同)。由于篇幅原因,表1列举了几个具有代表性反爬虫措施的典型网站栏目所应用的反爬虫策略。