《表1 Seeds数据表设计》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于Heritrix可配置主题的聚焦爬虫方法》
为了实现爬虫的高度可配置性以及数据存储和查询的便利性,将Heritrix爬虫与My SQL数据库进行结合。首先,Heritrix爬虫载入种子的方式默认为以文件方式载入,此种方式不利于种子站点的管理。因此,可以将单独为种子站点在数据库中建立一张数据表,此数据表的结构参见表1。在爬虫开启时,直接从数据库中载入开启的种子站点。若某种子站点在抓取的过程中满足抓取完成的条件,则设置其Enable字段为1。若要关闭某种子站点,则选择将其删除或者将其Enable字段置为-1即可。
图表编号 | XD00191116600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.20 |
作者 | 王松、刘洪基、叶晓波 |
绘制单位 | 楚雄师范学院经济与管理学院、楚雄师范学院经济与管理学院、楚雄师范学院国有资产与信息化管理处 |
更多格式 | 高清、无水印(增值服务) |