图书介绍
大数据技术体系详解 原理、架构与实践PDF|Epub|txt|kindle电子书版本网盘下载
![大数据技术体系详解 原理、架构与实践](https://www.shukui.net/cover/68/34578887.jpg)
- 董西成著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111590729
- 出版时间:2018
- 标注页数:364页
- 文件大小:148MB
- 文件页数:379页
- 主题词:数据处理
PDF下载
下载说明
大数据技术体系详解 原理、架构与实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 概述篇2
第1章 企业级大数据技术体系概述2
1.1大数据系统产生背景及应用场景2
1.1.1产生背景2
1.1.2常见大数据应用场景3
1.2企业级大数据技术框架5
1.2.1数据收集层6
1.2.2数据存储层7
1.2.3资源管理与服务协调层7
1.2.4计算引擎层8
1.2.5数据分析层9
1.2.6数据可视化层9
1.3企业级大数据技术实现方案9
1.3.1 Google大数据技术栈10
1.3.2 Hadoop与Spark开源大数据技术栈12
1.4大数据架构:Lambda Architecture15
1.5 Hadoop与Spark版本选择及安装部署16
1.5.1 Hadoop与Spark版本选择16
1.5.2 Hadoop与Spark安装部署17
1.6小结18
1.7本章问题18
第二部分 数据收集篇20
第2章 关系型数据的收集20
2.1 Sqoop概述20
2.1.1设计动机20
2.1.2 Sqoop基本思想及特点21
2.2 Sqoop基本架构21
2.2.1 Sqoop 1基本架构22
2.2.2 Sqoop2基本架构23
2.2.3 Sqoop 1与Sqoop2对比24
2.3 Sqoop使用方式25
2.3.1 Sqoop 1使用方式25
2.3.2 Sqoop2使用方式28
2.4数据增量收集CDC31
2.4.1 CDC动机与应用场景31
2.4.2 CDC开源实现Canal32
2.4.3多机房数据同步系统Otter33
2.5小结35
2.6本章问题35
第3章 非关系型数据的收集36
3.1概述36
3.1.1 Flume设计动机36
3.1.2 Flume基本思想及特点37
3.2 Flume NG基本架构38
3.2.1 Flume NG基本架构38
3.2.2 Flume NG高级组件41
3.3 Flume NG数据流拓扑构建方法42
3.3.1如何构建数据流拓扑42
3.3.2数据流拓扑实例剖析46
3.4小结50
3.5本章问题50
第4章 分布式消息队列Kafka51
4.1概述51
4.1.1 Kafka设计动机51
4.1.2 Kafka特点53
4.2 Kafka设计架构53
4.2.1 Kafka基本架构54
4.2.2 Kafka各组件详解54
4.2.3 Kafka关键技术点58
4.3 Kafka程序设计60
4.3.1 Producer程序设计61
4.3.2 Consumer程序设计63
4.3.3开源Producer与Consumer实现65
4.4 Kafka典型应用场景65
4.5小结67
4.6本章问题67
第三部分 数据存储篇70
第5章 数据序列化与文件存储格式70
5.1数据序列化的意义70
5.2数据序列化方案72
5.2.1序列化框架Thrift72
5.2.2序列化框架Protobuf74
5.2.3序列化枢架Avro76
5.2.4序列化框架对比78
5.3文件存储格式剖析79
5.3.1行存储与列存储79
5.3.2行式存储格式80
5.3.3列式存储格式ORC、 Parquet与CarbonData82
5.4小结88
5.5本章问题89
第6章 分布式文件系统90
6.1背景90
6.2文件级别和块级别的分布式文件系统91
6.2.1文件级别的分布式系统91
6.2.2块级别的分布式系统92
6.3 HDFS基本架构93
6.4 HDFS关键技术94
6.4.1容错性设计95
6.4.2副本放置策略95
6.4.3异构存储介质96
6.4.4集中式缓存管理97
6.5 HDFS访问方式98
6.5.1 HDFS shell98
6.5.2 HDFS API100
6.5.3数据收集组件101
6.5.4计算引擎102
6.6小结102
6.7本章问题103
第7章 分布式结构化存储系统104
7.1背景104
7.2 HBase数据模型105
7.2.1逻辑数据模型105
7.2.2物理数据存储107
7.3 HBase基本架构108
7.3.1 HBase基本架构108
7.3.2 HBase内部原理110
7.4 HBase访问方式114
7.4.1 HBase shell114
7.4.2 HBase API116
7.4.3数据收集组件118
7.4.4计算引擎119
7.4.5 Apache Phoenix119
7.5 HBase应用案例120
7.5.1社交关系数据存储120
7.5.2时间序列数据库OpenTSDB122
7.6分布式列式存储系统Kudu125
7.6.1 Kudu基本特点125
7.6.2 Kudu数据模型与架构126
7.6.3 HBase与Kudu对比126
7.7小结127
7.8本章问题127
第四部分 分布式协调与资源管理篇130
第8章 分布式协调服务ZooKeeper130
8.1分布式协调服务的存在意义130
8.1.1 leader选举130
8.1.2负载均衡131
8.2 ZooKeeper数据模型132
8.3 ZooKeeper基本架构133
8.4 ZooKeeper程序设计134
8.4.1 ZooKeeper API135
8.4.2 Apache Curator139
8.5 ZooKeeper应用案例142
8.5.1 leader选举142
8.5.2分布式队列143
8.5.3负载均衡143
8.6小结144
8.7本章问题145
第9章 资源管理与调度系统YARN146
9.1 YARN产生背景146
9.1.1 MRvI局限性146
9.1.2 YARN设计动机147
9.2 YARN设计思想148
9.3 YARN的基本架构与原理149
9.3.1 YARN基本架构149
9.3.2 YARN高可用152
9.3.3 YARN工作流程153
9.4 YARN资源调度器155
9.4.1层级队列管理机制155
9.4.2多租户资源调度器产生背景156
9.4.3 Capacity/Fair Scheduler157
9.4.4基于节点标签的调度160
9.4.5资源抢占模型163
9.5 YARN资源隔离164
9.6以YARN为核心的生态系统165
9.7资源管理系统Mesos167
9.7.1 Mesos基本架构167
9.7.2 Mesos资源分配策略169
9.7.3 Mesos与YARN对比170
9.8资源管理系统架构演化170
9.8.1集中式架构171
9.8.2双层调度架构171
9.8.3共享状态架构172
9.9小结173
9.10本章问题173
第五部分 大数据计算引擎篇176
第10章 批处理引擎MapReduce176
10.1概述176
10.1.1 MapReduce产生背景176
10.1.2 MapReduce设计目标177
10.2 MapReduce编程模型178
10.2.1编程思想178
10.2.2 MapReduce编程组件179
10.3 MapReduce程序设计187
10.3.1 MapReduce程序设计基础187
10.3.2 MapReduce程序设计进阶194
10.3.3 Hadoop Streaming198
10.4 MapReduce内部原理204
10.4.1 MapReduce作业生命周期204
10.4.2 MapTask与ReduceTask206
10.4.3 MapReduce关键技术209
10.5 MapReduce应用实例211
10.6小结213
10.7本章问题213
第11章DAG计算引擎Spark215
11.1概述215
11.1.1 Spark产生背景215
11.1.2 Spark主要特点217
11.2 Spark编程模型218
11.2.1 Spark核心概念218
11.2.2 Spark程序基本框架220
11.2.3 Spark编程接口221
11.3 Spark运行模式227
11.3.1 Standalone模式229
11.3.2 YARN模式230
11.3.3 Spark Shell232
11.4 Spark程序设计实例232
11.4.1构建倒排索引232
11.4.2 SQL GroupBy实现234
11.4.3应用程序提交235
11.5 Spark内部原理236
11.5.1 Spark作业生命周期237
11.5.2 Spark Shuffle241
11.6 DataFrame、Dataset与SQL247
11.6.1 DataFrame/Dataset与SQL的关系248
11.6.2 DataFrame/Dataset程序设计249
11.6.3 DataFrame/Dataset程序实例254
11.7 Spark生态系统257
11.8小结257
11.9本章问题258
第12章 交互式计算引擎261
12.1概述261
12.1.1产生背景261
12.1.2交互式查询引擎分类262
12.1.3常见的开源实现263
12.2 ROLAP263
12.2.1 Impala263
12.2.2 Presto267
12.2.3 Impala与Presto对比271
12.3 MOLAP271
12.3.1 Druid简介271
12.3.2 Kylin简介272
12.3.3 Druid与Kylin对比274
12.4小结274
12.5本章问题274
第13章 流式实时计算引擎276
13.1概述276
13.1.1产生背景276
13.1.2常见的开源实现278
13.2 Storm基础与实战278
13.2.1 Storm概念与架构279
13.2.2 Storm程序设计实例282
13.2.3 Storm内部原理285
13.3 Spark Streaming基础与实战290
13.3.1概念与架构290
13.3.2程序设计基础291
13.3.3编程实例详解298
13.3.4容错性讨论300
13.4流式计算引擎对比303
13.5小结304
13.6本章问题304
第六部分 数据分析篇308
第14章 数据分析语言HQL与SQL308
14.1概述308
14.1.1背景308
14.1.2 SQL On Hadoop309
14.2 Hive架构309
14.2.1 Hive基本架构310
14.2.2 Hive查询引擎311
14.3 Spark SQL架构312
14.3.1 Spark SQL基本架构312
14.3.2 Spark SQL与Hive对比313
14.4 HQL314
14.4.1 HQL基本语法314
14.4.2 HQL应用实例320
14.5小结322
14.6本章问题322
第15章 大数据统一编程模型325
15.1产生背景325
15.2 Apache Beam基本构成327
15.2.1 Beam SDK327
15.2.2 Beam Runner328
15.3 Apache Beam编程模型329
15.3.1构建Pipeline330
15.3.2创建PCollection331
15.3.3使用Transform334
15.3.4 side input与side output340
15.4 Apache Beam流式计算模型341
15.4.1 window简述342
15.4.2 watermark、 trigger与accumulation344
15.5 Apache Beam编程实例346
15.5.1 WordCount346
15.5.2移动游戏用户行为分析348
15.6小结350
15.7本章问题350
第16章 大数据机器学习库351
16.1机器学习库简介351
16.2 MLLib机器学习库354
16.2.1 Pipeline355
16.2.2特征工程357
16.2.3机器学习算法360
16.3小结361
16.4本章问题361