《Hive性能调优实战》求取 ⇩

第1章举例感受Hive性能调优的多样性1

1.1感受改写SQL对性能的影响1

1.1.1数据准备1

1.1.2union案例4

1.1.3改写SQL实现union的优化5

1.1.4失败的union调优8

1.2感受调整数据块大小对性能的影响10

1.2.1数据准备11

1.2.2案例比较11

1.3感受不同数据格式对性能的提升15

1.3.1数据准备15

1.3.2案例比较16

1.4感受不同的表设计对性能的影响18

1.4.1数据准备19

1.4.2案例比较21

1.5调优其实不难24

第2章Hive问题排查与调优思路25

2.1小白推演Hive的优化方法25

2.1.1类比关系型数据库的调优25

2.1.2学习大数据分布式计算的基本原理28

2.1.3学习使用YARN提供的日志31

2.1.4干预SQL的运行方式33

2.2老工对Hive的调优理解36

2.2.1从一个过度优化案例说起36

2.2.2编码和调优的原则43

2.2.3Hive程序相关规范49

2.3总结调优的一般性过程51

第3章环境搭建53

3.1 Docker基础53

3.1.1Docker介绍54

3.1.2安装Docker56

3.1.3常见的Docker使用与管理命令58

3.1.4使用Dockerfile构建服务镜像60

3.1.5 Dockerfile语法63

3.2 Cloudera Docker搭建伪分布式环境66

3.3Docker搭建分布式集群68

3.3.1构建JDK镜像69

3.3.2构建Hadoop镜像70

3.3.3构建Hive镜像72

3.3.4启动集群73

3.4CDM搭建分布式集群75

3.4.1 Cloudera Manager组件75

3.4.2 Docker构建软件安装内部源76

3.4.3 CDM安装分布式集群79

3.5使用GitHub开源项目构建集群87

第4章Hive及其相关大数据组件89

4.1 Hive架构89

4.1.1Hive 1.x版本基本结构89

4.1.2 Hive元数据91

4.2 YARN组件97

4.2.1YARN的优点97

4.2.2 YARN基本组成97

4.2.3 YARN工作流程99

4.2.4 YARN资源调度器100

4.3 HDFS架构102

4.3.1常见HDFS优化102

4.3.2HDFS基本架构和读写流程103

4.3.3 HDFS高可用架构105

4.3.4 NameNode联盟107

4.4计算引擎109

4.4.1MapReduce计算引擎109

4.4.2 Tez计算引擎111

4.4.3 LLAP长时在线与处理程序113

4.4.4 Spark计算引擎115

第5章深入MapReduce计算引擎117

5.1 MapReduce整体处理过程117

5.2MapReduce作业输入118

5.2.1输入格式类InputFormat118

5.2.2 InputFormat在Hive中的使用120

5.3MapReduce的Mapper121

5.3.1 Mapper类121

5.3.2 Hive中与Mapper相关的配置123

5.4MapReduce的Reducer125

5.4.1 Reducer类126

5.4.2 Hive中与Reducer相关的配置127

5.5 MapReduce的Shuffle128

5.6 MapReduce的Map端聚合129

5.6.1Combiner类129

5.6.2 Map端的聚合与Hive配置130

5.7MapReduce作业输出131

5.7.1 OutputFormat作业输出132

5.7.2 Hive配置与作业输出133

5.8 MapReduce作业与Hive配置134

5.9MapReduce与Tez对比135

5.9.1通过案例代码对比MapReduce和Tez135

5.9.2 Hive中Tez和LLAP相关的配置141

第6章HiveSQL执行计划143

6.1查看SQL的执行计划143

6.1.1查看执行计划的基本信息144

6.1.2查看执行计划的扩展信息148

6.1.3查看SQL数据输入依赖的信息148

6.1.4查看SQL操作涉及的相关权限信息152

6.1.5查看SQL的向量化描述信息152

6.2简单SQL的执行计划解读158

6.3带普通函数/操作符SQL的执行计划解读161

6.3.1执行计划解读161

6.3.2普通函数和操作符162

6.4带聚合函数的SQL执行计划解读164

6.4.1在Reduce阶段聚合的SQL164

6.4.2在Map和Reduce阶段聚合的SQL167

6.4.3高级分组聚合169

6.5带窗口/分析函数的SQL执行计划解读172

6.6表连接的SQL执行计划解读175

6.6.1Hive表连接的类型175

6.6.2内连接和外连接176

6.6.3左半连接178

第7章Hive数据处理模式181

7.1过滤模式181

7.1.1where子句过滤模式182

7.1.2 having子句过滤183

7.1.3 distinct子句过滤184

7.1.4表过滤186

7.1.5分区过滤188

7.1.6分桶过滤189

7.1.7索引过滤191

7.1.8列过滤191

7.2聚合模式192

7.2.1distinct模式193

7.2.2 count(列)、count(*)、 count(1)行计数聚合模式194

7.2.3可计算中间结果的聚合模式197

7.2.4不可计算中间结果的聚合模式199

7.3连接模式200

7.3.1普通Map连接201

7.3.2桶的Map连接和排序合并桶的Map连接207

7.3.3倾斜连接209

7.3.4表连接与基于成本的优化器210

第8章YARN日志212

8.1查看YARN日志的方式212

8.1.1ResourceManager Web UI界面212

8.1.2 JobHistory Web UI界面215

8.2快速查看集群概况216

8.2.1Cluster Metrics集群度量指标217

8.2.2 Cluster Node Metrics集群节点的度量信息218

8.2.3 Cluster Overview集群概况220

8.3查看集群节点概况221

8.3.1节点列表概况221

8.3.2节点详细信息223

8.3.3节点作业信息224

8.4查看集群的队列调度情况226

8.5查看集群作业运行信息230

8.5.1集群作业运行状态230

8.5.2查看作业运行的基本信息231

8.5.3查看作业计数器232

第9章数据存储236

9.1文件存储格式之Apache ORC236

9.1.1ORC的结构237

9.1.2 ORC的数据类型238

9.1.3 ACID事务的支持240

9.2与ORC相关的Hive配置241

9.2.1表配置属性241

9.2.2Hive表的配置属性241

9.3文件存储格式之Apache Parquet242

9.3.1Parquet基本结构243

9.3.2 Parquet的相关配置245

9.4数据归档245

第10章发现并优化Hive中的性能问题247

10.1监控Hive数据库的状态247

10.2监控当前集群状态253

10.3定位性能瓶颈258

10.3.1使用HS2 WebUI排除非大数据组件的问题258

10.3.2排查长时等待调度260

10.3.3Map任务读取小文件和大文件261

10.3.4 Reduce的数据倾斜262

10.3.5缓慢的Shuffle264

10.3.6集群资源的限制265

10.4数据倾斜266

10.4.1不可拆分大文件引发的数据倾斜266

10.4.2业务无关的数据引发的数据倾斜267

10.4.3多维聚合计算数据膨胀引起的数据倾斜268

10.4.4无法削减中间结果的数据量引发的数据倾斜268

10.4.5两个Hive数据表连接时引发的数据倾斜269

第11章Hive知识体系总结270

11.1 Hive知识体系270

11.2数据粒度271

11.3SQL相关275

11.3.1 select查询语句276

11.3.2数据定义语言(DDL)276

11.3.3数据控制语言(DML)279

11.3.4用户自定义函数(UDF)280

11.4文件操作281

2020《Hive性能调优实战》由于是年代较久的资料都绝版了,几乎不可能购买到实物。如果大家为了学习确实需要,可向博主求助其电子版PDF文件(由林志煌 2020 北京:机械工业出版社 出版的版本) 。对合法合规的求助,我会当即受理并将下载地址发送给你。

高度相关资料

如何培养实战能力(1991 PDF版)
如何培养实战能力
1991 北京:国际文化出版公司
实战Nginx取代Apache的高性能( PDF版)
实战Nginx取代Apache的高性能
java编程模式与范例基础开发技巧( PDF版)
java编程模式与范例基础开发技巧
oraclestatspack高性能调整技术( PDF版)
oraclestatspack高性能调整技术
OPENCV深度学习应用与性能优化实践(2020 PDF版)
OPENCV深度学习应用与性能优化实践
2020
Web前端性能优化(2020 PDF版)
Web前端性能优化
2020
飞机-发动机性能匹配与优化(1990 PDF版)
飞机-发动机性能匹配与优化
1990
中法战争调查实录(1982 PDF版)
中法战争调查实录
1982
调优运算( PDF版)
调优运算
金属力学性能实验(1991 PDF版)
金属力学性能实验
1991 北京:机械工业出版社
性功能自我调节(1993 PDF版)
性功能自我调节
1993 长春:吉林科学技术出版社
性医学·性病·优生(1988 PDF版)
性医学·性病·优生
1988 北京:北京科学技术出版社
男性的优点·女性的优点(1998 PDF版)
男性的优点·女性的优点
1998 北京:新世界出版社
Sybase原理、高级系统管理与性能调优(1998 PDF版)
Sybase原理、高级系统管理与性能调优
1998 北京:中国水利水电出版社
塑料实用性能试验手册(1988 PDF版)
塑料实用性能试验手册
1988 上海:上海科学技术文献出版社