图书介绍
Hadoop构建数据仓库实践PDF|Epub|txt|kindle电子书版本网盘下载
![Hadoop构建数据仓库实践](https://www.shukui.net/cover/48/30424730.jpg)
- 王雪迎著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302469803
- 出版时间:2017
- 标注页数:434页
- 文件大小:629MB
- 文件页数:444页
- 主题词:数据处理软件
PDF下载
下载说明
Hadoop构建数据仓库实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 数据仓库简介1
1.1什么是数据仓库1
1.1.1数据仓库的定义1
1.1.2建立数据仓库的原因3
1.2操作型系统与分析型系统5
1.2.1操作型系统5
1.2.2分析型系统8
1.2.3操作型系统和分析型系统对比9
1.3数据仓库架构10
1.3.1基本架构10
1.3.2主要数据仓库架构12
1.3.3操作数据存储16
1.4抽取-转换-装载17
1.4.1数据抽取17
1.4.2数据转换19
1.4.3数据装载20
1.4.4开发ETL系统的方法21
1.4.5常见ETL工具21
1.5数据仓库需求22
1.5.1基本需求22
1.5.2数据需求23
1.6小结24
第2章 数据仓库设计基础25
2.1关系数据模型25
2.1.1关系数据模型中的结构25
2.1.2关系完整性28
2.1.3规范化30
2.1.4关系数据模型与数据仓库33
2.2维度数据模型34
2.2.1维度数据模型建模过程35
2.2.2维度规范化36
2.2.3维度数据模型的特点37
2.2.4星型模式38
2.2.5雪花模式40
2.3 Data Vault模型42
2.3.1 Data Vault模型简介42
2.3.2 Data Vault模型的组成部分43
2.3.3 Data Vault模型的特点44
2.3.4 Data Vault模型的构建44
2.3.5 Data Vault模型实例46
2.4数据集市49
2.4.1数据集市的概念50
2.4.2数据集市与数据仓库的区别50
2.4.3数据集市设计50
2.5数据仓库实施步骤51
2.6小结54
第3章 Hadoop生态圈与数据仓库55
3.1大数据定义55
3.2 Hadoop简介56
3.2.1 Hadoop的构成57
3.2.2 Hadoop的主要特点58
3.2.3 Hadoop架构58
3.3 Hadoop基本组件59
3.3.1 HDFS60
3.3.2 MapReduce65
3.3.3 YARN72
3.4 Hadoop生态圈的其他组件77
3.5 Hadoop与数据仓库81
3.5.1关系数据库的可扩展性瓶颈82
3.5.2 CAP理论84
3.5.3 Hadoop数据仓库工具85
3.6小结88
第4章 安装Hadoop89
4.1 Hadoop主要发行版本89
4.1.1 Cloudera Distribution for Hadoop(CDH)89
4.1.2 Hortonworks Data Platform (HDP)90
4.1.3 MapR Hadoop90
4.2安装Apache Hadoop91
4.2.1安装环境91
4.2.2安装前准备92
4.2.3安装配置Hadoop93
4.2.4安装后配置97
4.2.5初始化及运行97
4.3配置HDFS Federation99
4.4离线安装CDH及其所需的服务104
4.4.1 CDH安装概述104
4.4.2安装环境106
4.4.3安装配置106
4.4.4 Cloudera Manager许可证管理114
4.5小结115
第5章 Kettle与Hadoop117
5.1 Kettle概述117
5.2 Kettle连接Hadoop119
5.2.1连接HDFS119
5.2.2连接Hive124
5.3导出导入Hadoop集群数据128
5.3.1把数据从HDFS抽取到RDBMS128
5.3.2向Hive表导入数据132
5.4执行Hive的HiveQL语句134
5.5 MapReduce转换示例135
5.6 Kettle提交Spark作业143
5.6.1安装Spark143
5.6.2配置Kettle向Spark集群提交作业146
5.7小结149
第6章 建立数据仓库示例模型150
6.1业务场景150
6.2 Hive相关配置152
6.2.1选择文件格式152
6.2.2支持行级更新159
6.2.3 Hive事务支持的限制164
6.3 Hive表分类164
6.4向Hive表装载数据169
6.5建立数据库表174
6.6装载日期维度数据179
6.7小结180
第7章 数据抽取182
7.1逻辑数据映射182
7.2数据抽取方式185
7.3导出成文本文件191
7.4分布式查询196
7.5使用Sqoop抽取数据200
7.5.1 Sqoop简介200
7.5.2 CDH 5.7.0中的Sqoop203
7.5.3使用Sqoop抽取数据203
7.5.4 Sqoop优化207
7.6小结208
第8章 数据转换与装载210
8.1数据清洗210
8.2 Hive简介214
8.2.1 Hive的体系结构215
8.2.2 Hive的工作流程216
8.2.3 Hive服务器218
8.2.4 Hive客户端221
8.3初始装载231
8.4定期装载236
8.5 Hive优化246
8.6小结254
第9章 定期自动执行ETL作业256
9.1 crontab256
9.2 Oozie简介260
9.2.1 Oozie的体系结构260
9.2.2 CDH 5.7.0中的Oozie262
9.3建立定期装载工作流262
9.4建立协调器作业定期自动执行工作流271
9.5 Oozie优化275
9.6小结276
第10章 维度表技术278
10.1增加列278
10.2维度子集285
10.3角色扮演维度292
10.4层次维度298
10.4.1固定深度的层次299
10.4.2递归302
10.4.3多路径层次310
10.4.4参差不齐的层次312
10.5退化维度313
10.6杂项维度316
10.7维度合并323
10.8分段维度329
10.9小结335
第11章 事实表技术336
11.1事实表概述336
11.2周期快照337
11.3累积快照343
11.4无事实的事实表349
11.5迟到的事实354
11.6累积度量360
11.7小结366
第12章 联机分析处理367
12.1联机分析处理简介367
12.1.1概念367
12.1.2分类368
12.1.3性能371
12.2 Impala简介371
12.3 Hive、SparkSQL、Impala比较377
12.3.1 Spark SQL简介377
12.3.2 Hive、Spark SQL、Impala比较379
12.3.3 Hive、Spark SQL、Impala性能对比382
12.4联机分析处理实例387
12.5 Apache Kylin与OLAP399
12.5.1 Apache Kylin架构399
12.5.2 Apache Kylin安装401
12.6小结407
第13章 数据可视化408
13.1数据可视化简介408
13.2 Hue简介410
13.2.1 Hue功能快速预览411
13.2.2配置元数据存储412
13.3 Zeppelin简介415
13.3.1 Zeppelin架构415
13.3.2 Zeppelin安装配置416
13.3.3在Zeppelin中添加MySQL翻译器421
13.4 Hue、Zeppelin比较425
13.5数据可视化实例426
13.6小结434