图书介绍

大数据技术体系详解 原理、架构与实践PDF|Epub|txt|kindle电子书版本网盘下载

大数据技术体系详解 原理、架构与实践
  • 董西成著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111590729
  • 出版时间:2018
  • 标注页数:364页
  • 文件大小:148MB
  • 文件页数:379页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据技术体系详解 原理、架构与实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 概述篇2

第1章 企业级大数据技术体系概述2

1.1大数据系统产生背景及应用场景2

1.1.1产生背景2

1.1.2常见大数据应用场景3

1.2企业级大数据技术框架5

1.2.1数据收集层6

1.2.2数据存储层7

1.2.3资源管理与服务协调层7

1.2.4计算引擎层8

1.2.5数据分析层9

1.2.6数据可视化层9

1.3企业级大数据技术实现方案9

1.3.1 Google大数据技术栈10

1.3.2 Hadoop与Spark开源大数据技术栈12

1.4大数据架构:Lambda Architecture15

1.5 Hadoop与Spark版本选择及安装部署16

1.5.1 Hadoop与Spark版本选择16

1.5.2 Hadoop与Spark安装部署17

1.6小结18

1.7本章问题18

第二部分 数据收集篇20

第2章 关系型数据的收集20

2.1 Sqoop概述20

2.1.1设计动机20

2.1.2 Sqoop基本思想及特点21

2.2 Sqoop基本架构21

2.2.1 Sqoop 1基本架构22

2.2.2 Sqoop2基本架构23

2.2.3 Sqoop 1与Sqoop2对比24

2.3 Sqoop使用方式25

2.3.1 Sqoop 1使用方式25

2.3.2 Sqoop2使用方式28

2.4数据增量收集CDC31

2.4.1 CDC动机与应用场景31

2.4.2 CDC开源实现Canal32

2.4.3多机房数据同步系统Otter33

2.5小结35

2.6本章问题35

第3章 非关系型数据的收集36

3.1概述36

3.1.1 Flume设计动机36

3.1.2 Flume基本思想及特点37

3.2 Flume NG基本架构38

3.2.1 Flume NG基本架构38

3.2.2 Flume NG高级组件41

3.3 Flume NG数据流拓扑构建方法42

3.3.1如何构建数据流拓扑42

3.3.2数据流拓扑实例剖析46

3.4小结50

3.5本章问题50

第4章 分布式消息队列Kafka51

4.1概述51

4.1.1 Kafka设计动机51

4.1.2 Kafka特点53

4.2 Kafka设计架构53

4.2.1 Kafka基本架构54

4.2.2 Kafka各组件详解54

4.2.3 Kafka关键技术点58

4.3 Kafka程序设计60

4.3.1 Producer程序设计61

4.3.2 Consumer程序设计63

4.3.3开源Producer与Consumer实现65

4.4 Kafka典型应用场景65

4.5小结67

4.6本章问题67

第三部分 数据存储篇70

第5章 数据序列化与文件存储格式70

5.1数据序列化的意义70

5.2数据序列化方案72

5.2.1序列化框架Thrift72

5.2.2序列化框架Protobuf74

5.2.3序列化枢架Avro76

5.2.4序列化框架对比78

5.3文件存储格式剖析79

5.3.1行存储与列存储79

5.3.2行式存储格式80

5.3.3列式存储格式ORC、 Parquet与CarbonData82

5.4小结88

5.5本章问题89

第6章 分布式文件系统90

6.1背景90

6.2文件级别和块级别的分布式文件系统91

6.2.1文件级别的分布式系统91

6.2.2块级别的分布式系统92

6.3 HDFS基本架构93

6.4 HDFS关键技术94

6.4.1容错性设计95

6.4.2副本放置策略95

6.4.3异构存储介质96

6.4.4集中式缓存管理97

6.5 HDFS访问方式98

6.5.1 HDFS shell98

6.5.2 HDFS API100

6.5.3数据收集组件101

6.5.4计算引擎102

6.6小结102

6.7本章问题103

第7章 分布式结构化存储系统104

7.1背景104

7.2 HBase数据模型105

7.2.1逻辑数据模型105

7.2.2物理数据存储107

7.3 HBase基本架构108

7.3.1 HBase基本架构108

7.3.2 HBase内部原理110

7.4 HBase访问方式114

7.4.1 HBase shell114

7.4.2 HBase API116

7.4.3数据收集组件118

7.4.4计算引擎119

7.4.5 Apache Phoenix119

7.5 HBase应用案例120

7.5.1社交关系数据存储120

7.5.2时间序列数据库OpenTSDB122

7.6分布式列式存储系统Kudu125

7.6.1 Kudu基本特点125

7.6.2 Kudu数据模型与架构126

7.6.3 HBase与Kudu对比126

7.7小结127

7.8本章问题127

第四部分 分布式协调与资源管理篇130

第8章 分布式协调服务ZooKeeper130

8.1分布式协调服务的存在意义130

8.1.1 leader选举130

8.1.2负载均衡131

8.2 ZooKeeper数据模型132

8.3 ZooKeeper基本架构133

8.4 ZooKeeper程序设计134

8.4.1 ZooKeeper API135

8.4.2 Apache Curator139

8.5 ZooKeeper应用案例142

8.5.1 leader选举142

8.5.2分布式队列143

8.5.3负载均衡143

8.6小结144

8.7本章问题145

第9章 资源管理与调度系统YARN146

9.1 YARN产生背景146

9.1.1 MRvI局限性146

9.1.2 YARN设计动机147

9.2 YARN设计思想148

9.3 YARN的基本架构与原理149

9.3.1 YARN基本架构149

9.3.2 YARN高可用152

9.3.3 YARN工作流程153

9.4 YARN资源调度器155

9.4.1层级队列管理机制155

9.4.2多租户资源调度器产生背景156

9.4.3 Capacity/Fair Scheduler157

9.4.4基于节点标签的调度160

9.4.5资源抢占模型163

9.5 YARN资源隔离164

9.6以YARN为核心的生态系统165

9.7资源管理系统Mesos167

9.7.1 Mesos基本架构167

9.7.2 Mesos资源分配策略169

9.7.3 Mesos与YARN对比170

9.8资源管理系统架构演化170

9.8.1集中式架构171

9.8.2双层调度架构171

9.8.3共享状态架构172

9.9小结173

9.10本章问题173

第五部分 大数据计算引擎篇176

第10章 批处理引擎MapReduce176

10.1概述176

10.1.1 MapReduce产生背景176

10.1.2 MapReduce设计目标177

10.2 MapReduce编程模型178

10.2.1编程思想178

10.2.2 MapReduce编程组件179

10.3 MapReduce程序设计187

10.3.1 MapReduce程序设计基础187

10.3.2 MapReduce程序设计进阶194

10.3.3 Hadoop Streaming198

10.4 MapReduce内部原理204

10.4.1 MapReduce作业生命周期204

10.4.2 MapTask与ReduceTask206

10.4.3 MapReduce关键技术209

10.5 MapReduce应用实例211

10.6小结213

10.7本章问题213

第11章DAG计算引擎Spark215

11.1概述215

11.1.1 Spark产生背景215

11.1.2 Spark主要特点217

11.2 Spark编程模型218

11.2.1 Spark核心概念218

11.2.2 Spark程序基本框架220

11.2.3 Spark编程接口221

11.3 Spark运行模式227

11.3.1 Standalone模式229

11.3.2 YARN模式230

11.3.3 Spark Shell232

11.4 Spark程序设计实例232

11.4.1构建倒排索引232

11.4.2 SQL GroupBy实现234

11.4.3应用程序提交235

11.5 Spark内部原理236

11.5.1 Spark作业生命周期237

11.5.2 Spark Shuffle241

11.6 DataFrame、Dataset与SQL247

11.6.1 DataFrame/Dataset与SQL的关系248

11.6.2 DataFrame/Dataset程序设计249

11.6.3 DataFrame/Dataset程序实例254

11.7 Spark生态系统257

11.8小结257

11.9本章问题258

第12章 交互式计算引擎261

12.1概述261

12.1.1产生背景261

12.1.2交互式查询引擎分类262

12.1.3常见的开源实现263

12.2 ROLAP263

12.2.1 Impala263

12.2.2 Presto267

12.2.3 Impala与Presto对比271

12.3 MOLAP271

12.3.1 Druid简介271

12.3.2 Kylin简介272

12.3.3 Druid与Kylin对比274

12.4小结274

12.5本章问题274

第13章 流式实时计算引擎276

13.1概述276

13.1.1产生背景276

13.1.2常见的开源实现278

13.2 Storm基础与实战278

13.2.1 Storm概念与架构279

13.2.2 Storm程序设计实例282

13.2.3 Storm内部原理285

13.3 Spark Streaming基础与实战290

13.3.1概念与架构290

13.3.2程序设计基础291

13.3.3编程实例详解298

13.3.4容错性讨论300

13.4流式计算引擎对比303

13.5小结304

13.6本章问题304

第六部分 数据分析篇308

第14章 数据分析语言HQL与SQL308

14.1概述308

14.1.1背景308

14.1.2 SQL On Hadoop309

14.2 Hive架构309

14.2.1 Hive基本架构310

14.2.2 Hive查询引擎311

14.3 Spark SQL架构312

14.3.1 Spark SQL基本架构312

14.3.2 Spark SQL与Hive对比313

14.4 HQL314

14.4.1 HQL基本语法314

14.4.2 HQL应用实例320

14.5小结322

14.6本章问题322

第15章 大数据统一编程模型325

15.1产生背景325

15.2 Apache Beam基本构成327

15.2.1 Beam SDK327

15.2.2 Beam Runner328

15.3 Apache Beam编程模型329

15.3.1构建Pipeline330

15.3.2创建PCollection331

15.3.3使用Transform334

15.3.4 side input与side output340

15.4 Apache Beam流式计算模型341

15.4.1 window简述342

15.4.2 watermark、 trigger与accumulation344

15.5 Apache Beam编程实例346

15.5.1 WordCount346

15.5.2移动游戏用户行为分析348

15.6小结350

15.7本章问题350

第16章 大数据机器学习库351

16.1机器学习库简介351

16.2 MLLib机器学习库354

16.2.1 Pipeline355

16.2.2特征工程357

16.2.3机器学习算法360

16.3小结361

16.4本章问题361

热门推荐