《PySpark机器学习、自然语言处理与推荐系统》
作者 | (印)普拉莫德·辛格(PramodSingh)著 编者 |
---|---|
出版 | 未查询到或未知 |
参考页数 | |
出版时间 | 2020(求助前请核对) 目录预览 |
ISBN号 | 无 — 求助条款 |
PDF编号 | 820160638(仅供预览,未存储实际文件) |
求助格式 | 扫描PDF(若分多册发行,每次仅能受理1册) |

第1章数据革命1
1.1数据生成1
1.2Spark2
1.2.1 Spark Core3
1.2.2 Spark组件4
1.3设置环境5
1.3.1Windows5
1.3.2 iOS6
1.4小结7
第2章机器学习简介9
2.1有监督机器学习10
2.2无监督机器学习12
2.3半监督机器学习14
2.4强化学习14
2.5小结15
第3章数据处理17
3.1加载和读取数据17
3.2添加一个新列20
3.3筛选数据21
3.3.1条件121
3.3.2条件222
3.4列中的非重复值23
3.5数据分组23
3.6聚合25
3.7用户自定义函数(UDF)26
3.7.1传统的Python函数26
3.7.2使用lambda函数27
3.7.3Pandas UDF(向量化的UDF)28
3.7.4 Pandas UDF(多列)29
3.8去掉重复值29
3.9删除列30
3.10写入数据30
3.10.1csv31
3.10.2嵌套结构31
3.11小结31
第4章线性回归33
4.1变量33
4.2理论34
4.3说明41
4.4评估42
4.5代码43
4.5.1数据信息43
4.5.2步骤1:创建SparkSession对象44
4.5.3步骤2:读取数据集44
4.5.4步骤3:探究式数据分析44
4.5.5步骤4:特征工程化45
4.5.6步骤5:划分数据集47
4.5.7步骤6:构建和训练线性回归模型47
4.5.8步骤7:在测试数据上评估线性回归模型48
4.6小结48
第5章逻辑回归49
5.1概率49
5.1.1使用线性回归50
5.1.2使用Logit53
5.2截距(回归系数)54
5.3虚变量55
5.4模型评估56
5.4.1正确的正面预测56
5.4.2正确的负面预测57
5.4.3错误的正面预测57
5.4.4错误的负面预测57
5.4.5准确率57
5.4.6召回率57
5.4.7精度58
5.4.8F1分数58
5.4.9截断/阈值概率58
5.4.10 ROC曲线58
5.5逻辑回归代码59
5.5.1数据信息59
5.5.2步骤1:创建Spark会话对象60
5.5.3步骤2:读取数据集60
5.5.4步骤3:探究式数据分析60
5.5.5步骤4:特征工程63
5.5.6步骤5:划分数据集68
5.5.7步骤6:构建和训练逻辑回归模型69
5.5.8训练结果69
5.5.9步骤7:在测试数据上评估线性回归模型70
5.5.10混淆矩阵71
5.6小结72
第6章随机森林73
6.1决策树73
6.1.1熵75
6.1.2信息增益76
6.2随机森林78
6.3代码80
6.3.1数据信息80
6.3.2步骤1:创建SparkSession对象81
6.3.3步骤2:读取数据集81
6.3.4步骤3:探究式数据分析81
6.3.5步骤4:特征工程85
6.3.6步骤5:划分数据集86
6.3.7步骤6:构建和训练随机森林模型87
6.3.8步骤7:基于测试数据进行评估87
6.3.9准确率89
6.3.10精度89
6.3.11AUC曲线下的面积89
6.3.12步骤8:保存模型90
6.4小结90
第7章推荐系统91
7.1推荐91
7.1.1基于流行度的RS92
7.1.2基于内容的RS93
7.1.3基于协同过滤的RS95
7.1.4混合推荐系统103
7.2代码104
7.2.1数据信息105
7.2.2步骤1:创建SparkSession对象105
7.2.3步骤2:读取数据集105
7.2.4步骤3:探究式数据分析105
7.2.5步骤4:特征工程108
7.2.6步骤5:划分数据集109
7.2.7步骤6:构建和训练推荐系统模型110
7.2.8步骤7:基于测试数据进行预测和评估110
7.2.9步骤8:推荐活动用户可能会喜欢的排名靠前的电影111
7.3小结114
第8章聚类115
8.1初识聚类115
8.2用途117
8.2.1K-均值117
8.2.2层次聚类127
8.3代码131
8.3.1数据信息131
8.3.2步骤1:创建SparkSession对象131
8.3.3步骤2:读取数据集131
8.3.4步骤3:探究式数据分析131
8.3.5步骤4:特征工程133
8.3.6步骤5:构建K均值聚类模型133
8.3.7步骤6:聚类的可视化136
8.4小结137
第9章自然语言处理139
9.1引言139
9.2 NLP涉及的处理步骤139
9.3语料140
9.4标记化140
9.5移除停用词141
9.6词袋142
9.7计数向量器143
9.8 TF-IDF144
9.9使用机器学习进行文本分类145
9.10序列嵌入151
9.11嵌入151
9.12小结160
2020《PySpark机器学习、自然语言处理与推荐系统》由于是年代较久的资料都绝版了,几乎不可能购买到实物。如果大家为了学习确实需要,可向博主求助其电子版PDF文件。对合法合规的求助,我会当即受理并将下载地址发送给你。
高度相关资料
-
- 微机计算机化设计原理
- 1983 北京:科学出版社
-
- GO语言机器学习实战
- 2020
-
- IOSP操作系统处理器
- 1985
-
- 多微机系统与并行处理
- 1987 广州:华南工学院出版社
-
- 自然语言机器翻译新论
- 1994 北京:语文出版社
-
- 自然语言处理
- 1991 北京:科学出版社
-
- 微处理器和微型计算机系统
- 1983 北京:科学出版社
-
- 多微处理器系统
- 1986 西安:西安交通大学出版社
-
- 微处理机式继电器和保护系统
- 1990 重庆:重庆大学出版社
-
- 微处理器系统接口
- 1983 北京:高等教育出版社
-
- 计算机系统与信息处理
- 1985 北京:科学出版社
-
- 中华学习机机器语言
- 1991 北京:气象出版社
-
- 微处理机系统调试
- 1986 北京:人民邮电出版社
提示:百度云已更名为百度网盘(百度盘),天翼云盘、微盘下载地址……暂未提供。➥ PDF文字可复制化或转WORD