《表2 平均重用距离统计:基于网络爬虫的搜索引擎的设计与实现》
爬取数据后通过Pipeline文件处理数据,将Spider中解析字段插入到数据库中,本系统使用异步插入方式。在from_settings类中通过do_insert函数来执行具体插入并根据不同的item构建不同SQL语句插入数据库。同时在配置中修改主要控制字段来控制爬虫的爬取行为,部分字段名称及作用如表2:
图表编号 | XD00187166500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.10.25 |
作者 | 高文超、李浩源、徐永康 |
绘制单位 | 中国矿业大学(北京)机电与信息工程学院、中国矿业大学(北京)机电与信息工程学院、中国矿业大学(北京)机电与信息工程学院 |
更多格式 | 高清、无水印(增值服务) |