《Python爬虫技术 深入理解原理、技术与开发》求取 ⇩
作者 | 李宁编著 编者 |
---|---|
出版 | 未查询到或未知 |
参考页数 | ✅ 真实服务 非骗流量 ❤️ |
出版时间 | 2020(求助前请核对) 目录预览 |
ISBN号 | 无 — 违规投诉 / 求助条款 |
PDF编号 | 820160768(学习资料 勿作它用) |
求助格式 | 扫描PDF(若分多册发行,每次仅能受理1册) |
第1篇基础知识2
第1章开发环境配置2
1.1安装官方的Python运行环境2
1.2配置PATH环境变量5
1.3安装Anaconda Python开发环境6
1.4安装PyCharm7
1.5配置PyCharm8
1.6小结10
第2章爬虫基础11
2.1HTTP基础11
2.1.1 URI和URL11
2.1.2超文本12
2.1.3 HTTP与HTTPS12
2.1.4 HTTP的请求过程15
2.1.5请求17
2.1.6响应20
2.2网页基础23
2.2.1HTML23
2.2.2 CSS24
2.2.3 CSS选择器25
2.2.4 JavaScript27
2.3爬虫的基本原理27
2.3.1爬虫的分类27
2.3.2爬虫抓取数据的方式和手段28
2.4Session与Cookie28
2.4.1静态页面和动态页面29
2.4.2无状态HTTP与Cookie30
2.4.3利用Session和Cookie保持状态30
2.4.4查看网站的Cookie31
2.4.5 HTTP状态何时会失效32
2.5实战案例:抓取所有的网络资源33
2.6实战案例:抓取博客文章列表37
2.7小结40
第2篇网络库42
第3章网络库urllib42
3.1 urllib简介42
3.2发送请求与获得响应43
3.2.1用urlopen函数发送HTTP GET请求43
3.2.2用urlopen函数发送HTTP POST请求44
3.2.3请求超时45
3.2.4设置HTTP请求头46
3.2.5设置中文HTTP请求头48
3.2.6请求基础验证页面50
3.2.7搭建代理与使用代理54
3.2.8读取和设置Cookie56
3.3异常处理60
3.3.1URLError60
3.3.2 HTTPError61
3.4解析链接62
3.4.1拆分与合并URL(urlparse与urlunparse)62
3.4.2另一种拆分与合并URL的方式(urlsplit与urlunsplit)63
3.4.3连接URL (urljoin)65
3.4.4URL编码(urlencode)65
3.4.5编码与解码(quote与unquote)66
3.4.6参数转换(parse_qs与parse_qsl)66
3.5Robots协议67
3.5.1 Robots协议简介67
3.5.2分析Robots协议68
3.6小结69
第4章网络库urllib370
4.1 urllib3简介70
4.2 urllib3模块70
4.3发送HTTP GET请求71
4.4发送HTTPPOST请求72
4.5 HTTP请求头74
4.6 HTTP响应头76
4.7上传文件76
4.8超时78
4.9小结79
第5章网络库requests80
5.1基本用法80
5.1.1requests的HelloWorld81
5.1.2 GET请求81
5.1.3添加HTTP请求头82
5.1.4抓取二进制数据83
5.1.5 POST请求84
5.1.6响应数据85
5.2高级用法87
5.2.1上传文件88
5.2.2处理Cookie89
5.2.3使用同一个会话(Session)90
5.2.4SSL证书验证91
5.2.5使用代理94
5.2.6超时95
5.2.7身份验证97
5.2.8将请求打包97
5.3小结98
第6章Twisted网络框架99
6.1异步编程模型99
6.2 Reactor(反应堆)模式101
6.3 HelloWorld, Twisted框架101
6.4用Twisted实现时间戳客户端103
6.5用Twisted实现时间戳服务端104
6.6小结105
第3篇解析库108
第7章正则表达式108
7.1使用正则表达式108
7.1.1使用match方法匹配字符串108
7.1.2使用search方法在一个字符串中查找模式109
7.1.3匹配多个字符串110
7.1.4匹配任何单个字符111
7.1.5使用字符集112
7.1.6重复、可选和特殊字符114
7.1.7分组117
7.1.8匹配字符串的起始和结尾以及单词边界118
7.1.9使用findall和finditer查找每一次出现的位置120
7.1.10用sub和subn搜索与替换121
7.1.11使用split分隔字符串122
7.2一些常用的正则表达式123
7.3项目实战:抓取小说目录和全文124
7.4项目实战:抓取猫眼电影Top 100榜单128
7.5项目实战:抓取糗事百科网的段子133
7.6小结136
第8章Ixml与XPath137
8.1lxml基础137
8.1.1安装lxml137
8.1.2操作XML138
8.1.3操作HTML140
8.2XPath141
8.2.1 XPath概述141
8.2.2使用XPath141
8.2.3选取所有节点143
8.2.4选取子节点145
8.2.5选取父节点146
8.2.6属性匹配与获取146
8.2.7多属性匹配147
8.2.8按序选择节点148
8.2.9节点轴选择149
8.2.10在Chrome中自动获得XPath代码151
8.2.11使用Chrome验证XPath153
8.3项目实战:抓取豆瓣Top250图书榜单154
8.4项目实战:抓取起点中文网的小说信息158
8.5小结161
第9章Beautiful Soup库162
9.1 Beautiful Soup简介162
9.2Beautiful Soup基础162
9.2.1安装Beautiful Soup163
9.2.2选择解析器164
9.2.3编写第一个Beautiful Soup程序164
9.3节点选择器165
9.3.1选择节点165
9.3.2嵌套选择节点167
9.3.3选择子节点168
9.3.4选择父节点171
9.3.5选择兄弟节点172
9.4方法选择器174
9.4.1find all方法174
9.4.2 find方法177
9.5CSS选择器178
9.5.1基本用法179
9.5.2嵌套选择节点180
9.5.3获取属性值与文本181
9.5.4通过浏览器获取CSS选择器代码182
9.6实战案例:抓取租房信息184
9.7实战案例:抓取酷狗网络红歌榜188
9.8小结191
第10章pyquery库192
10.1 pyquery简介192
10.2pyquery基础192
10.2.1安装pyquery193
10.2.2 pyquery的基本用法193
10.3 CSS选择器194
10.4查找节点196
10.4.1查找子节点196
10.4.2查找父节点197
10.4.3查找兄弟节点198
10.4.4获取节点信息199
10.5修改节点203
10.5.1添加和移除节点的样式(addClass和removeClass)204
10.5.2修改节点属性和文本内容(attr、 removeAttr、 text和html)205
10.5.3删除节点(remove)207
10.6伪类选择器208
10.7项目实战:抓取当当图书排行榜210
10.8项目实战:抓取京东商城手机销售排行榜213
10.9小结219
第4篇数据存储222
第11章文件存储222
11.1打开文件222
11.2操作文件的基本方法224
11.2.1读文件和写文件224
11.2.2读行和写行226
11.3使用Filelnput对象读取文件227
11.4处理XML格式的数据228
11.4.1读取与搜索XML文件228
11.4.2字典转换为XML字符串229
11.4.3XML字符串转换为字典231
11.5处理JSON格式的数据232
11.5.1JSON字符串与字典互相转换233
11.5.2将JSON字符串转换为类实例234
11.5.3将类实例转换为JSON字符串236
11.5.4类实例列表与JSON字符串互相转换236
11.6将JSON字符串转换为XML字符串237
11.7CSV文件存储238
11.7.1写入CSV文件238
11.7.2读取CSV文件241
11.8小结241
第12章数据库存储242
12.1SQLite数据库242
12.1.1管理SQLite数据库243
12.1.2用Python操作SQLite数据库245
12.2MySQL数据库247
12.2.1安装MySQL247
12.2.2在Python中使用MySQL250
12.3非关系型数据库253
12.3.1NoSQL简介253
12.3.2 MongoDB数据库253
12.3.3 pymongo模块255
12.4项目实战:抓取豆瓣音乐排行榜256
12.5项目实战:抓取豆瓣电影排行榜260
12.6小结264
第5篇爬虫高级应用266
第13章抓取异步数据266
13.1异步加载与AJAX266
13.2基本原理267
13.3逆向工程270
13.4提取结果274
13.5项目实战:支持搜索功能的图片爬虫274
13.6项目实战:抓取京东图书评价279
13.7小结284
第14章可见即可爬:Selenium285
14.1安装Selenium286
14.2安装WebDriver286
14.2.1安装ChromeDriver287
14.2.2装Edge WebDriver288
14.2.3安装其他浏览器的WebDriver289
14.3Selenium的基本使用方法289
14.4查找节点293
14.4.1查找单个节点293
14.4.2查找多个节点295
14.5节点交互297
14.6动作链298
14.7执行JavaScript代码301
14.8获取节点信息302
14.9管理Cookies303
14.10改变节点的属性值304
14.11项目实战:抓取QQ空间说说的内容306
14.12小结308
第15章基于Splash的爬虫309
15.1Splash基础309
15.1.1 Splash功能简介309
15.1.2安装Docker310
15.1.3安装Splash310
15.2Splash Lua脚本312
15.2.1第一个Lua脚本312
15.2.2异步处理313
15.2.3 Splash对象属性314
15.2.4 go方法318
15.2.5 wait方法319
15.2.6 jsfunc方法320
15.2.7 evaljs方法320
15.2.8 runjs方法320
15.2.9 autoload方法321
15.2.10 call_later方法322
15.2.11 http_get方法323
15.2.12 http_post方法324
15.2.13 set_content方法325
15.2.14 html方法325
15.2.15 png方法326
15.2.16 jpeg方法326
15.2.17 har方法326
15.2.18其他方法327
15.3使用CSS选择器331
15.3.1select方法331
15.3.2 select_all方法332
15.4模拟鼠标和键盘的动作333
15.5 Splash HTTP API334
15.6项目实战:使用Splash Lua抓取京东搜索结果338
15.7小结340
第16章抓取移动App的数据341
16.1使用Charles341
16.1.1抓取HTTP数据包342
16.1.2安装PC端证书344
16.1.3在手机端安装证书345
16.1.4监听HTTPS数据包346
16.2使用mitmproxy348
16.2.1安装mitmproxy348
16.2.2在PC端安装mitmproxy证书349
16.2.3在移动端安装mitmproxy证书352
16.2.4mitmproxy有哪些功能353
16.2.5设置手机的代理353
16.2.6用mitmproxy监听App的请求与响应数据354
16.2.7使用mitmproxy编辑请求信息356
16.2.8 mitmdump与Python对接357
16.2.9使用mitmweb监听请求与响应361
16.3项目实战:实时抓取“得到”App在线课程363
16.4小结367
第17章使用Appium在移动端抓取数据368
17.1安装Appium368
17.1.1安装Appium桌面端368
17.1.2配置Android开发环境370
17.1.3配置iOS开发环境371
17.2Appium的基本使用方法372
17.2.1启动Appium服务372
17.2.2查找Android App的Package和入口Activity374
17.2.3控制App376
17.3使用Python控制手机App379
17.4AppiumPythonClient API380
17.4.1初始化(Remote类)380
17.4.2查找元素381
17.4.3单击元素381
17.4.4屏幕拖动382
17.4.5屏幕滑动382
17.4.6拖曳操作383
17.4.7文本输入383
17.4.8动作链383
17.5项目实战:利用Appium抓取微信朋友圈信息384
17.6小结388
第18章多线程和多进程爬虫389
18.1线程与进程389
18.1.1进程389
18.1.2线程390
18.2Python与线程390
18.2.1使用单线程执行程序390
18.2.2使用多线程执行程序391
18.2.3为线程函数传递参数393
18.2.4线程和锁394
18.3高级线程模块(threading)395
18.3.1Thread类与线程函数395
18.3.2 Thread类与线程对象396
18.3.3从Thread类继承398
18.4线程同步399
18.4.1线程锁400
18.4.2信号量402
18.5生产者—消费者问题与queue模块405
18.6多进程407
18.7项目实战:抓取豆瓣音乐Top250排行榜(多线程版)408
18.8项目实战:抓取豆瓣音乐Top250排行榜(多进程版)411
18.9小结412
第19章网络爬虫框架:Scrapy413
19.1Scrapy基础知识413
19.1.1 Scrapy简介413
19.1.2 Scrapy安装414
19.1.3 Scrapy Shell抓取Web资源415
19.2用Scrapy编写网络爬虫417
19.2.1创建和使用Scrapy工程417
19.2.2在PyCharm中使用Scrapy419
19.2.3在PyCharm中使用扩展工具运行Scrapy程序421
19.2.4使用Scrapy抓取数据,并通过XPath指定解析规则423
19.2.5将抓取到的数据保存为多种格式的文件424
19.2.6使用ItemLoader保存单条抓取的数据426
19.2.7使用ItemLoader保存多条抓取的数据428
19.2.8抓取多个URL430
19.3 Scrapy的高级应用431
19.3.1处理登录页面431
19.3.2处理带隐藏文本框的登录页面434
19.3.3通过API抓取天气预报数据436
19.3.4从CSV格式转换到JSON格式443
19.3.5下载器中间件447
19.3.6爬虫中间件452
19.3.7Item管道455
19.3.8通用爬虫465
19.4小结474
第20章综合爬虫项目:可视化爬虫475
20.1项目简介475
20.2主界面设计和实现477
20.3获取商品页数和每页商品数478
20.4并发抓取商品列表479
20.5数据库操作类481
20.6情感分析484
20.7抓取和分析商品评论数据485
20.8可视化评论数据486
20.9小结488
2020《Python爬虫技术 深入理解原理、技术与开发》由于是年代较久的资料都绝版了,几乎不可能购买到实物。如果大家为了学习确实需要,可向博主求助其电子版PDF文件。对合法合规的求助,我会当即受理并将下载地址发送给你。
高度相关资料
- 微控制器原理与开发技术
- 1997 北京:清华大学出版社
- 技术开发与技术预测
- 1985年05月第1版 上海交通大学出版社
- 技术开发与技术预测
- 1984
- 护理原理与技术 下
- 1999 北京:科学技术文献出版社
- 工业开发技术分析原理
- 1990 北京:兵器工业出版社
- 锁相和频率反馈系统原理与技术 原理与技术
- 1982 北京:人民邮电出版社
- 理发技术
- 1983 北京:中国财政经济出版社
- 技术营销 原理与技术
- 1997 济南:山东大学出版社
- 制冷原理与技术
- 1988 北京:科学出版社
- 离子注入原理与技术
- 1982 北京:北京出版社
- 技术开发原理与方法
- 1987 大连:大连工学院出版社
- 石油化工裂解原理与技术
- 1981 北京:化学工业出版社
- 施肥原理与技术
- 1982 北京:农业出版社
- 高技术开发与管理
- 1994 北京:企业管理出版社
- 微波原理与技术
- 1994 北京:北京师范大学出版社
提示:百度云已更名为百度网盘(百度盘),天翼云盘、微盘下载地址……暂未提供。➥ PDF文字可复制化或转WORD