《表1 Seeds数据表设计》

《表1 Seeds数据表设计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于Heritrix可配置主题的聚焦爬虫方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了实现爬虫的高度可配置性以及数据存储和查询的便利性,将Heritrix爬虫与My SQL数据库进行结合。首先,Heritrix爬虫载入种子的方式默认为以文件方式载入,此种方式不利于种子站点的管理。因此,可以将单独为种子站点在数据库中建立一张数据表,此数据表的结构参见表1。在爬虫开启时,直接从数据库中载入开启的种子站点。若某种子站点在抓取的过程中满足抓取完成的条件,则设置其Enable字段为1。若要关闭某种子站点,则选择将其删除或者将其Enable字段置为-1即可。