《大数据Hadoop 3.X分布式处理实战》

作者	吴章勇，杨强编者
出版	北京：人民邮电出版社
参考页数	370
出版时间	2020（求助前请核对）目录预览
ISBN号	9787115524669 — 求助条款
PDF编号	86507448（仅供预览，未存储实际文件）
求助格式	扫描PDF（若分多册发行，每次仅能受理1册）

系统维护中...

第一篇Hadoop技术3

第1章大数据与Hadoop概述3

1.1大数据概述3

1.1.1大数据的定义3

1.1.2大数据行业的发展4

1.1.3大数据的典型应用4

1.2Hadoop概述6

1.2.1Hadoop简介6

1.2.2Hadoop生态子项目7

1.2.3 Hadoop 3.X的新特性9

1.3小结9

1.4配套视频10

第2章Hadoop伪分布式安装11

2.1Hadoop伪分布式安装前的准备11

2.1.1安装VMware11

2.1.2安装CentOS 712

2.1.3配置CentOS 7：接受协议15

2.1.4配置CentOS 7：登录系统16

2.1.5配置CentOS 7：设置IP16

2.1.6配置CentOS 7：修改主机名17

2.1.7配置CentOS 7：配置hosts文件18

2.1.8配置CentOS 7：关闭防火墙18

2.1.9配置CentOS 7：禁用selinux19

2.1.10配置CentOS 7：设置SSH免密码登录19

2.1.11配置CentOS 7：重启20

2.2Hadoop伪分布式安装21

2.2.1安装WinSCP21

2.2.2安装PieTTY22

2.2.3安装JDK23

2.2.4安装Hadoop24

2.3Hadoop验证28

2.3.1格式化28

2.3.2启动Hadoop29

2.3.3查看Hadoop相关进程29

2.3.4浏览文件30

2.3.5浏览器访问30

2.4小结31

2.5配套视频31

第3章Hadoop分布式文件系统——HDFS32

3.1HDFS原理32

3.1.1HDFS的假设前提和设计目标32

3.1.2 HDFS的组件33

3.1.3 HDFS数据复制36

3.1.4HDFS健壮性36

3.1.5 HDFS数据组织38

3.2 HDFS Shell39

3.2.1Hadoop文件操作命令39

3.2.2Hadoop系统管理命令44

3.3HDFS Java API46

3.3.1搭建Linux下Eclipse开发环境46

3.3.2为Eclipse安装Hadoop插件47

3.3.3 HDFS Java API示例49

3.4小结56

3.5配套视频56

第4章分布式计算框架MapReduce57

4.1MapReduce原理57

4.1.1 MapReduce概述57

4.1.2 MapReduce的主要功能59

4.1.3 MapReduce的处理流程59

4.2MapReduce编程基础61

4.2.1内置数据类型介绍61

4.2.2 WordCount入门示例63

4.2.3 MapReduce分区与自定义数据类型67

4.3MapReduce综合实例——数据去重71

4.3.1实例描述71

4.3.2设计思路72

4.3.3程序代码73

4.3.4运行结果74

4.4MapReduce综合实例——数据排序75

4.4.1实例描述75

4.4.2设计思路76

4.4.3程序代码77

4.4.4运行结果79

4.5MapReduce综合实例——求学生平均成绩79

4.5.1实例描述79

4.5.2设计思路80

4.5.3程序代码81

4.5.4运行结果83

4.6 MapReduce综合实例——WordCount高级示例84

4.7小结87

4.8配套视频87

第二篇Hadoop生态系统的主要大数据工具整合应用91

第5章NoSQL数据库HBase91

5.1HBase原理91

5.1.1 HBase概述91

5.1.2 HBase核心概念92

5.1.3 HBase的关键流程95

5.2HBase伪分布式安装97

5.2.1安装HBase的前提条件98

5.2.2解压并配置环境变量98

5.2.3配置HBase参数99

5.2.4验证HBase100

5.3HBase Shell103

5.3.1 HBase ShelL常用命令103

5.3.2HBase Shell综合示例109

5.3.3 HBase Shell的全部命令112

5.4小结114

5.5配套视频114

第6章HBase高级特性115

6.1HBase Java API115

6.1.1 HBase Java API介绍115

6.1.2 HBase Java API示例120

6.2HBase与MapReduce的整合130

6.2.1HBase与MapReduce的整合概述130

6.2.2 HBase与MapReduce的整合示例130

6.3小结134

6.4配套视频134

第7章分布式数据仓库Hive135

7.1Hive概述135

7.1.1 Hive的定义135

7.1.2 Hive的设计特征136

7.1.3 Hive的体系结构136

7.2Hive伪分布式安装137

7.2.1安装Hive的前提条件137

7.2.2解压并配置环境变量138

7.2.3安装MySQL139

7.2.4配置Hive143

7.2.5验证Hive145

7.3 Hive QL的基础功能146

7.3.1操作数据库146

7.3.2创建表147

7.3.3数据准备150

7.4Hive QL的高级功能153

7.4.1 select查询154

7.4.2函数154

7.4.3统计函数154

7.4.4 distinct去除重复值155

7.4.5 limit限制返回记录的条数156

7.4.6为列名取别名156

7.4.7 case when then多路分支156

7.4.8 like模糊查询157

7.4.9 group by分组统计157

7.4.10 having过滤分组统计结果157

7.4.11 inner join内联接158

7.4.12 left outer join和right outer join外联接159

7.4.13 full outer join外部联接159

7.4.14 order by排序160

7.4.15 where查找160

7.5小结161

7.6配套视频162

第8章Hive高级特性163

8.1Beeline163

8.1.1使用Beeline的前提条件163

8.1.2 Beeline的基本操作164

8.1.3 Beeline的参数选项与管理命令166

8.2 Hive JDBC167

8.2.1运行Hive JDBC的前提条件167

8.2.2Hive JDBC基础示例167

8.2.3 Hive JDBC综合示例169

8.3Hive函数174

8.3.1内置函数174

8.3.2自定义函数175

8.4Hive表的高级特性181

8.4.1外部表181

8.4.2分区表182

8.5小结185

8.6配套视频185

第9章数据转换工具Sqoop186

9.1Sqoop概述与安装186

9.1.1Sqoop概述186

9.1.2 Sqoop安装187

9.2Sqoop导入数据189

9.2.1更改MySQL的root用户密码189

9.2.2准备数据190

9.2.3导入数据到HDFS191

9.2.4查看HDFS数据192

9.2.5导入数据到Hive193

9.2.6查看Hive数据193

9.3Sqoop导出数据194

9.3.1准备MySQL表194

9.3.2导出数据到MySQL194

9.3.3查看MySQL中的导出数据195

9.4深入理解Sqoop的导入与导出196

9.5小结203

9.6配套视频203

第10章内存计算框架Spark204

10.1Spark入门204

10.1.1 Spark概述204

10.1.2 Spark伪分布式安装205

10.1.3由Java到Scala209

10.1.4 Spark的应用212

10.1.5 Spark入门示例217

10.2Spark Streaming220

10.2.1 Spark Streaming概述220

10.2.2 Spark Streaming示例221

10.3Spark SQL224

10.3.1 Spark SQL概述224

10.3.2 spark-sql命令225

10.3.3使用Scala操作Spark SQL227

10.4小结228

10.5配套视频229

第11章Hadoop及其常用组件集群安装230

11.1Hadoop集群安装230

11.1.1安装并配置CentOS230

11.1.2安装JDK236

11.1.3安装Hadoop237

11.1.4远程复制文件241

11.1.5验证Hadoop242

11.2HBase集群安装244

11.2.1解压并配置环境变量244

11.2.2配置HBase参数245

11.2.3远程复制文件246

11.2.4验证HBase247

11.3 Hive集群安装249

11.3.1解压并配置环境变量249

11.3.2安装MySQL250

11.3.3配置Hive252

11.3.4验证Hive254

11.4Spark集群安装254

11.4.1安装Scala254

11.4.2安装Spark254

11.4.3配置Spark255

11.4.4远程复制文件256

11.4.5验证Spark257

11.5小结259

11.6配套视频259

第三篇实战篇263

第12章海量Web日志分析系统263

12.1案例介绍263

12.1.1分析Web日志数据的目的263

12.1.2 Web日志分析的典型应用场景265

12.1.3日志的不确定性265

12.2案例分析266

12.2.1日志分析的KPI267

12.2.2案例系统结构267

12.2.3日志分析方法268

12.3案例实现273

12.3.1定义日志相关属性字段273

12.3.2数据合法标识（在分析时是否被过滤）274

12.3.3解析日志274

12.3.4日志合法性过滤275

12.3.5页面访问量统计的实现276

12.3.6页面独立IP访问量统计的实现278

12.3.7用户单位时间PV的统计实现280

12.3.8用户访问设备信息统计的实现282

12.4小结283

12.5配套视频283

第13章电商商品推荐系统284

13.1案例介绍284

13.1.1推荐算法284

13.1.2案例的意义285

13.1.3案例需求285

13.2案例设计286

13.2.1协同过滤286

13.2.2基于用户的协同过滤算法289

13.2.3基于物品的协同过滤算法292

13.2.4算法实现设计295

13.2.5推荐步骤与架构设计298

13.3案例实现298

13.3.1实现HDFS文件操作工具299

13.3.2实现任务步骤1：汇总用户对所有物品的评分信息302

13.3.3实现任务步骤2：获取物品同现矩阵305

13.3.4实现任务步骤3：合并同现矩阵和评分矩阵307

13.3.5实现任务步骤4：计算推荐结果310

13.3.6实现统一的任务调度316

13.4小结317

13.5配套视频317

第14章分布式垃圾消息识别系统318

14.1案例介绍318

14.1.1案例内容318

14.1.2案例应用的主体结构319

14.1.3案例运行结果321

14.2 RPC远程方法调用的设计322

14.2.1Java EE的核心优势：RMI322

14.2.2 RMI的基本原理324

14.2.3自定义RPC组件分析325

14.3数据分析设计328

14.3.1垃圾消息识别算法——朴素贝叶斯算法328

14.3.2进行分布式贝叶斯分类学习时的全局计数器330

14.3.3数据清洗分析结果存储332

14.4案例实现333

14.4.1自定义的RPC组件服务端相关实现333

14.4.2自定义的RPC组件客户端相关实现342

14.4.3业务服务器实现347

14.4.4业务客户端实现367

14.5小结370

14.6配套视频370

2020《大数据Hadoop 3.X分布式处理实战》由于是年代较久的资料都绝版了，几乎不可能购买到实物。如果大家为了学习确实需要，可向博主求助其电子版PDF文件（由吴章勇，杨强 2020 北京：人民邮电出版社出版的版本）。对合法合规的求助，我会当即受理并将下载地址发送给你。

系统维护中...

高度相关资料

: 分布处理和数据通信; 1983 北京：国防工业出版社

: JAVA多线程与大数据处理实战; 2020

: Hadoop数据仓库实战; 2020

: 分布式处理机通讯结构; 1983

: 分布式数据库系统; 1988

: 理化分析数据处理手册; 1990

: 分布式数据库系统概论; 1989 北京：航空工业出版社

: DECnet网络及其应用; 1990 北京：科学出版社

: 分布式数据库系统原理与设计; 1987 陕西电子出版社

: 分布式数据库原理和系统; 1989 北京：水利电力出版社

: 实验误差与数据处理; 1988 上海：上海科学技术出版社

: 初等数学古代名题集; 1984 北京：科学普及出版社

: 分布式处理系统; 1987 北京：科学出版社

: 分布式数据处理; 1990 北京：国防工业出版社

: 分布式数据库系统概论; 1992 北京：科学出版社

提示：百度云已更名为百度网盘（百度盘），天翼云盘、微盘下载地址……暂未提供。➥ PDF文字可复制化或转WORD

《大数据Hadoop 3.X分布式处理实战》

高度相关资料

Hive性能调优实战

穿越数据的迷宫数据管理执行指

相关绝版资料

随机翻阅

《大数据Hadoop 3.X分布式处理实战》

高度相关资料

Hive性能调优实战

穿越数据的迷宫 数据管理执行指

相关绝版资料

随机翻阅

穿越数据的迷宫数据管理执行指