图书介绍

Hadoop构建数据仓库实践PDF|Epub|txt|kindle电子书版本网盘下载

王雪迎著著
出版社：北京：清华大学出版社
ISBN：9787302469803
出版时间：2017
标注页数：434页
文件大小：629MB
文件页数：444页
主题词：数据处理软件

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：e65c199712ec73996c2294b02995ae48

下载说明

Hadoop构建数据仓库实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章数据仓库简介1

1.1什么是数据仓库1

1.1.1数据仓库的定义1

1.1.2建立数据仓库的原因3

1.2操作型系统与分析型系统5

1.2.1操作型系统5

1.2.2分析型系统8

1.2.3操作型系统和分析型系统对比9

1.3数据仓库架构10

1.3.1基本架构10

1.3.2主要数据仓库架构12

1.3.3操作数据存储16

1.4抽取-转换-装载17

1.4.1数据抽取17

1.4.2数据转换19

1.4.3数据装载20

1.4.4开发ETL系统的方法21

1.4.5常见ETL工具21

1.5数据仓库需求22

1.5.1基本需求22

1.5.2数据需求23

1.6小结24

第2章数据仓库设计基础25

2.1关系数据模型25

2.1.1关系数据模型中的结构25

2.1.2关系完整性28

2.1.3规范化30

2.1.4关系数据模型与数据仓库33

2.2维度数据模型34

2.2.1维度数据模型建模过程35

2.2.2维度规范化36

2.2.3维度数据模型的特点37

2.2.4星型模式38

2.2.5雪花模式40

2.3 Data Vault模型42

2.3.1 Data Vault模型简介42

2.3.2 Data Vault模型的组成部分43

2.3.3 Data Vault模型的特点44

2.3.4 Data Vault模型的构建44

2.3.5 Data Vault模型实例46

2.4数据集市49

2.4.1数据集市的概念50

2.4.2数据集市与数据仓库的区别50

2.4.3数据集市设计50

2.5数据仓库实施步骤51

2.6小结54

第3章 Hadoop生态圈与数据仓库55

3.1大数据定义55

3.2 Hadoop简介56

3.2.1 Hadoop的构成57

3.2.2 Hadoop的主要特点58

3.2.3 Hadoop架构58

3.3 Hadoop基本组件59

3.3.1 HDFS60

3.3.2 MapReduce65

3.3.3 YARN72

3.4 Hadoop生态圈的其他组件77

3.5 Hadoop与数据仓库81

3.5.1关系数据库的可扩展性瓶颈82

3.5.2 CAP理论84

3.5.3 Hadoop数据仓库工具85

3.6小结88

第4章安装Hadoop89

4.1 Hadoop主要发行版本89

4.1.1 Cloudera Distribution for Hadoop（CDH）89

4.1.2 Hortonworks Data Platform （HDP）90

4.1.3 MapR Hadoop90

4.2安装Apache Hadoop91

4.2.1安装环境91

4.2.2安装前准备92

4.2.3安装配置Hadoop93

4.2.4安装后配置97

4.2.5初始化及运行97

4.3配置HDFS Federation99

4.4离线安装CDH及其所需的服务104

4.4.1 CDH安装概述104

4.4.2安装环境106

4.4.3安装配置106

4.4.4 Cloudera Manager许可证管理114

4.5小结115

第5章 Kettle与Hadoop117

5.1 Kettle概述117

5.2 Kettle连接Hadoop119

5.2.1连接HDFS119

5.2.2连接Hive124

5.3导出导入Hadoop集群数据128

5.3.1把数据从HDFS抽取到RDBMS128

5.3.2向Hive表导入数据132

5.4执行Hive的HiveQL语句134

5.5 MapReduce转换示例135

5.6 Kettle提交Spark作业143

5.6.1安装Spark143

5.6.2配置Kettle向Spark集群提交作业146

5.7小结149

第6章建立数据仓库示例模型150

6.1业务场景150

6.2 Hive相关配置152

6.2.1选择文件格式152

6.2.2支持行级更新159

6.2.3 Hive事务支持的限制164

6.3 Hive表分类164

6.4向Hive表装载数据169

6.5建立数据库表174

6.6装载日期维度数据179

6.7小结180

第7章数据抽取182

7.1逻辑数据映射182

7.2数据抽取方式185

7.3导出成文本文件191

7.4分布式查询196

7.5使用Sqoop抽取数据200

7.5.1 Sqoop简介200

7.5.2 CDH 5.7.0中的Sqoop203

7.5.3使用Sqoop抽取数据203

7.5.4 Sqoop优化207

7.6小结208

第8章数据转换与装载210

8.1数据清洗210

8.2 Hive简介214

8.2.1 Hive的体系结构215

8.2.2 Hive的工作流程216

8.2.3 Hive服务器218

8.2.4 Hive客户端221

8.3初始装载231

8.4定期装载236

8.5 Hive优化246

8.6小结254

第9章定期自动执行ETL作业256

9.1 crontab256

9.2 Oozie简介260

9.2.1 Oozie的体系结构260

9.2.2 CDH 5.7.0中的Oozie262

9.3建立定期装载工作流262

9.4建立协调器作业定期自动执行工作流271

9.5 Oozie优化275

9.6小结276

第10章维度表技术278

10.1增加列278

10.2维度子集285

10.3角色扮演维度292

10.4层次维度298

10.4.1固定深度的层次299

10.4.2递归302

10.4.3多路径层次310

10.4.4参差不齐的层次312

10.5退化维度313

10.6杂项维度316

10.7维度合并323

10.8分段维度329

10.9小结335

第11章事实表技术336

11.1事实表概述336

11.2周期快照337

11.3累积快照343

11.4无事实的事实表349

11.5迟到的事实354

11.6累积度量360

11.7小结366

第12章联机分析处理367

12.1联机分析处理简介367

12.1.1概念367

12.1.2分类368

12.1.3性能371

12.2 Impala简介371

12.3 Hive、SparkSQL、Impala比较377

12.3.1 Spark SQL简介377

12.3.2 Hive、Spark SQL、Impala比较379

12.3.3 Hive、Spark SQL、Impala性能对比382

12.4联机分析处理实例387

12.5 Apache Kylin与OLAP399

12.5.1 Apache Kylin架构399

12.5.2 Apache Kylin安装401

12.6小结407

第13章数据可视化408

13.1数据可视化简介408

13.2 Hue简介410

13.2.1 Hue功能快速预览411

13.2.2配置元数据存储412

13.3 Zeppelin简介415

13.3.1 Zeppelin架构415

13.3.2 Zeppelin安装配置416

13.3.3在Zeppelin中添加MySQL翻译器421

13.4 Hue、Zeppelin比较425

13.5数据可视化实例426

13.6小结434