《表2 Data数据表设计》

《表2 Data数据表设计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于Heritrix可配置主题的聚焦爬虫方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

其次,在本方法中,Heritrix的写链,把爬虫抓取的网页信息存入数据库中建立的一张数据表中,数据表结构参见表2。除了正常的网页信息如网页内容、网页标题、网页链接外,还存储了Level、Seed、Parent等信息,标明该网页的抓取层级、最初站源信息以及直接站源信息。有了这些信息,一方面可以根据层级的不同而对其文本设置不同的权重,另一方面,可以根据这些信息来了解网站的整体结构,以便后期结构相似性的训练。2.1.2 URL过滤爬虫系统中有效的URL,按其目的可以分为目录页URL和内容页URL,分别生成目录页面和目的页面的正则表达式,爬虫中的过滤处理链以此为依据快速发现用户配置的页面并下载下来,避免将大量的时间花费在爬取其他不需要的栏目下。