《表2 Data数据表设计》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于Heritrix可配置主题的聚焦爬虫方法》
其次,在本方法中,Heritrix的写链,把爬虫抓取的网页信息存入数据库中建立的一张数据表中,数据表结构参见表2。除了正常的网页信息如网页内容、网页标题、网页链接外,还存储了Level、Seed、Parent等信息,标明该网页的抓取层级、最初站源信息以及直接站源信息。有了这些信息,一方面可以根据层级的不同而对其文本设置不同的权重,另一方面,可以根据这些信息来了解网站的整体结构,以便后期结构相似性的训练。2.1.2 URL过滤爬虫系统中有效的URL,按其目的可以分为目录页URL和内容页URL,分别生成目录页面和目的页面的正则表达式,爬虫中的过滤处理链以此为依据快速发现用户配置的页面并下载下来,避免将大量的时间花费在爬取其他不需要的栏目下。
图表编号 | XD00191116400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.20 |
作者 | 王松、刘洪基、叶晓波 |
绘制单位 | 楚雄师范学院经济与管理学院、楚雄师范学院经济与管理学院、楚雄师范学院国有资产与信息化管理处 |
更多格式 | 高清、无水印(增值服务) |