《大数据分析 Python爬虫、数据清洗和数据可视化》

Enter Your Email
求助资料链接 (必填)
输入提取邮箱(必填)

第1章大数据1

1.1大数据概述1

1.1.1大数据介绍1

1.1.2大数据的特征5

1.1.3大数据技术应用与基础7

1.2大数据的意义17

1.2.1大数据的国家战略意义17

1.2.2大数据的企业意义19

1.2.3我国大数据市场的预测19

1.3大数据的产业链分析20

1.3.1技术分析20

1.3.2运营分析20

1.4本章小结21

1.5实训22

习题29

第2章爬虫与大数据31

2.1爬虫概述31

2.1.1爬虫介绍31

2.1.2爬虫的地位与作用32

2.2Python介绍33

2.2.1 Python开发环境搭建33

2.2.2编写Python程序38

2.2.3 Python数据类型40

2.3爬虫相关知识47

2.3.1了解网页结构47

2.3.2Python与爬虫49

2.3.3基础爬虫框架52

2.4利用爬虫抓取网页内容54

2.4.1观察与分析页面54

2.4.2抓取过程分析55

2.4.3获取页面内容56

2.5本章小结57

2.6实训57

习题63

第3章Scrapy爬虫64

3.1 Scrapy爬虫概述64

3.2 Scrapy原理66

3.2.1Scrapy框架的架构66

3.2.2 Request对象和Response对象68

3.2.3 Select对象71

3.2.4 Spider开发流程74

3.3Scrapy的开发与实现76

3.3.1 Scrapy爬虫开发流程76

3.3.2创建Scrapy项目并查看结构77

3.3.3编写代码并运行爬虫79

3.4本章小结80

3.5实训81

习题84

第4章数据库连接与查询85

4.1数据库85

4.1.1数据库概述85

4.1.2关系数据库设计89

4.2MySQL数据库91

4.2.1 MySQL数据库概述91

4.2.2 MySQL数据库下载、安装与运行91

4.2.3 MySQL数据库命令行入门93

4.3使用Python操作MySQL数据库98

4.3.1pymysql安装与使用98

4.3.2 Python连接MySQL数据库99

4.4本章小结105

4.5实训105

习题106

第5章数据可视化基础与应用107

5.1数据可视化107

5.1.1数据可视化概述107

5.1.2数据可视化工具114

5.1.3数据可视化图表116

5.2matplotlib可视化基础121

5.2.1 numpy库121

5.2.2 matplotlib认识与安装126

5.2.3 matplotlib测试127

5.2.4 matplotlib.pyplot库128

5.3matplotlib可视化绘图132

5.3.1绘制线性图形132

5.3.2绘制柱状图形133

5.3.3绘制直方图135

5.3.4绘制散点图135

5.3.5绘制极坐标图136

5.3.6绘制饼图138

5.4 pyecharts可视化应用139

5.5本章小结144

5.6实训144

习题148

第6章大数据存储与清洗150

6.1大数据存储150

6.2数据清洗158

6.2.1数据清洗概述158

6.2.2数据清洗的原理160

6.2.3数据清洗的流程161

6.2.4数据清洗的工具163

6.3数据标准化165

6.3.1数据标准化的概念165

6.3.2数据标准化的方法165

6.3.3数据标准化的实例166

6.4本章小结167

6.5实训167

习题179

第7章数据格式与编码技术180

7.1文件格式180

7.2数据类型与编码185

7.2.1数据类型概述185

7.2.2字符编码189

7.2.3数据转换191

7.3Kettle数据清洗与转换工具的使用194

7.3.1 Kettle概述194

7.3.2 Kettle的安装与使用195

7.4CSV格式的数据转换199

7.4.1 CSV格式概述199

7.4.2 CSV与JSON文件的转换204

7.5本章小结207

7.6实训208

习题211

第8章数据抽取与采集212

8.1数据抽取212

8.2文本抽取与实现216

8.2.1文本文件抽取216

8.2.2CSV文件抽取223

8.2.3 JSON文件抽取226

8.3网页数据抽取与实现229

8.3.1网页数据抽取229

8.3.2Excel抽取网页数据229

8.3.3 Kettle抽取网页数据231

8.4数据采集与实现237

8.5本章小结240

8.6实训241

习题255

第9章pandas数据分析与清洗256

9.1认识pandas256

9.2 pandas语法与使用258

9.3pandas读取与清洗数据272

9.3.1数据准备272

9.3.2从CSV中读取数据272

9.3.3 pandas数据清洗275

9.4pandas数据可视化281

9.4.1 pandas绘图概述281

9.4.2 pandas绘图方法281

9.5本章小结288

9.6实训288

习题297

第10章数据分析与清洗综合实训298

10.1数据清洗实训298

10.1.1使用Kettle对生成的随机数实现字段选择298

10.1.2使用Kettle连接不同的数据表302

10.1.3使用Kettle过滤数据表309

10.1.4使用Kettle连接MySQL数据库,并输出查询结果312

10.2数据分析实训315

10.3本章小结319

习题320

2020《大数据分析 Python爬虫、数据清洗和数据可视化》由于是年代较久的资料都绝版了,几乎不可能购买到实物。如果大家为了学习确实需要,可向博主求助其电子版PDF文件。对合法合规的求助,我会当即受理并将下载地址发送给你。

Enter Your Email
求助资料链接 (必填)
输入提取邮箱(必填)

访客求助条款:还望您仔细阅读以下条款,继续浏览或使用服务表示其均得到您的认可:



➊️ 条款:请支持正版图书。肯定和感激作者及出版商的社会贡献,以及国Jia在「教育公平」上作出的努力。

➋️️ 条款:向博主支付任何费用都意味着在访客的主观意识下雇佣博主,形成博主受雇于访客的劳务关系。

➌ 条款:严禁恶意雇佣博主处理违法、有伤民族感情、有违优良传统、安全法规之内容,雇方需承担相关后果。

➍ 条款:博主会对受雇之资料内容进行安全审查,故而请不要求助或发布任何不法内容,此类求助直接退款。

➎ 条款:通常2小时内完成求助,深夜的求助最迟第二天12点前,个别特别疑难的会提前告知在24小时内完成。

➏ 条款:若包含多册(如上、下册)每次求助仅受理一册,除非原本一本就包含上下册内容,而非分多本发行。

➐ 条款:因资料保存年代久远、或受当时印刷技术限制而可能导致的质量风险,求助者需明了并自行承担。

➑ 条款:雇佣博主为您从事资料处理服务是收费的,其设定参照了北京市 最低工资标准 时薪来推算。