《Python数据挖掘入门与实践 第2版》求取 ⇩

第1章数据挖掘入门1

1.1什么是数据挖掘1

1.2使用Python和Jupyter Notebook3

1.2.1安装Python3

1.2.2安装Jupyter Notebook4

1.2.3安装scikit-l earn5

1.3亲和性分析的简单示例6

1.4商品推荐6

1.4.1用NumPy加载数据集7

1.4.2实现规则的简单排序9

1.4.3挑选最佳规则11

1.5分类的简单示例13

1.6什么是分类14

1.6.1准备数据集14

1.6.2实现OneR算法15

1.6.3测试算法功能17

1.7本章小结19

第2章用scikit-learn估计器解决分类问题20

2.1scikit-learn估计器20

2.1.1最近邻算法21

2.1.2距离度量22

2.1.3加载数据集24

2.1.4形成标准的工作流程25

2.1.5运行算法26

2.1.6设置参数27

2.2预处理29

2.2.1标准预处理30

2.2.2组装成型31

2.3流水线31

2.4本章小结32

第3章用决策树预测获胜球队34

3.1加载数据集34

3.1.1收集数据35

3.1.2用pandas加载数据集35

3.1.3清洗数据集36

3.1.4提取新特征37

3.2决策树39

3.2.1决策树的参数40

3.2.2决策树的使用41

3.3体育赛事结果预测42

3.4随机森林45

3.4.1集成学习的原理46

3.4.2设置随机森林的参数46

3.4.3应用随机森林47

3.4.4创建特征48

3.5本章小结49

第4章用亲和性分析推荐电影50

4.1亲和性分析50

4.1.1亲和性分析算法51

4.1.2总体方法52

4.2电影推荐问题52

4.3Apriori算法的原理与实现54

4.3.1 Apriori算法的基本思路56

4.3.2实现Apriori算法57

4.3.3提取关联规则59

4.3.4评估关联规则62

4.4本章小结64

第5章特征与scikit-learn转换器65

5.1特征提取65

5.1.1用模型表述现实66

5.1.2常见的特征模式68

5.1.3创建好的特征71

5.2特征的选取71

5.3特征创建76

5.4主成分分析78

5.5创建自己的转换器80

5.5.1转换器API81

5.5.2实现转换器81

5.6单元测试82

5.7组装成型83

5.8本章小结84

第6章用朴素贝叶斯算法探索社交媒体85

6.1消歧85

6.2从社交媒体下载数据87

6.2.1加载数据集并分类89

6.2.2创建可重现的Twitter数据集92

6.3文本转换器95

6.3.1词袋模型95

6.3.2n元语法特征96

6.3.3其他文本特征97

6.4朴素贝叶斯98

6.4.1理解贝叶斯定理98

6.4.2朴素贝叶斯算法99

6.4.3原理展示100

6.5朴素贝叶斯的应用101

6.5.1提取单词计数102

6.5.2把字典转换成矩阵103

6.5.3组装成型103

6.5.4用F1 score评估算法104

6.6从模型中找出有用的特征105

6.7本章小结107

第7章用图挖掘实现推荐关注109

7.1加载数据集109

7.2从Twitter获取关注者信息113

7.3创建图116

7.4寻找子图122

7.4.1连通分量122

7.4.2优化准则125

7.5本章小结127

第8章用神经网络识别验证码129

8.1人工神经网络130

8.2创建数据集132

8.2.1绘制简单的验证码133

8.2.2按字母分割图像135

8.2.3创建训练数据集137

8.3训练与分类139

8.4预测单词143

8.4.1用词典提升准确率146

8.4.2单词相似度的排名机制146

8.4.3组装成型147

8.5本章小结148

第9章作者归属问题149

9.1文档的作者归属149

9.1.1应用与场景150

9.1.2作者归属151

9.2获取数据152

9.3功能词的使用155

9.3.1统计功能词156

9.3.2用功能词分类158

9.4支持向量机159

9.4.1用支持向量机分类160

9.4.2核函数160

9.5字符n元语法161

9.6安然(Enron)数据集162

9.6.1获取安然数据集163

9.6.2创建数据集加载函数163

9.7组装成型166

9.8评估166

9.9本章小结168

第10章聚类新闻文章169

10.1发现热门话题169

10.1.1用Web API获取数据170

10.1.2把reddit作为数据源172

10.1.3获取数据173

10.2从任意网站提取文本175

10.2.1寻找任意网站中的新闻报道内容176

10.2.2提取内容177

10.3为新闻文章分组179

10.4k-均值算法179

10.4.1评估结果182

10.4.2从聚类簇中提取话题信息184

10.4.3把聚类算法作为转换器185

10.5聚类集成185

10.5.1证据积累方法185

10.5.2工作原理188

10.5.3算法实现190

10.6在线学习191

10.7本章小结194

第11章用深度神经网络实现图像中的对象检测195

11.1对象分类195

11.2应用场景197

11.3深度神经网络199

11.3.1直观感受199

11.3.2实现深度神经网络200

11.4TensorFlow简介201

11.5使用Keras204

11.6GPU优化210

11.6.1适用GPU的计算场景211

11.6.2在GPU上运行代码212

11.6.3设置环境213

11.7应用214

11.7.1获取数据214

11.7.2创建神经网络215

11.7.3组装成型216

11.8本章小结217

第12章大数据处理219

12.1大数据219

12.2MapReduce222

12.2.1直观感受223

12.2.2 HadoopMapReduce226

12.3应用MapReduce227

12.4朴素贝叶斯预测229

12.5提取博客文章229

12.6训练朴素贝叶斯231

12.7组装成型235

12.8在亚马逊EMR基础设施上训练239

12.9本章小结241

附录A下一步工作242

2020《Python数据挖掘入门与实践 第2版》由于是年代较久的资料都绝版了,几乎不可能购买到实物。如果大家为了学习确实需要,可向博主求助其电子版PDF文件(由(澳)罗伯特·莱顿(Robert Layton) 2020 北京:人民邮电出版社 出版的版本) 。对合法合规的求助,我会当即受理并将下载地址发送给你。