图书介绍

MapReduce 2.0源码分析与编程实战PDF|Epub|txt|kindle电子书版本网盘下载

MapReduce 2.0源码分析与编程实战
  • 王晓华著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115332370
  • 出版时间:2014
  • 标注页数:289页
  • 文件大小:60MB
  • 文件页数:307页
  • 主题词:软件工具-程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

MapReduce 2.0源码分析与编程实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大象也会跳舞1

1.1大数据时代1

1.2大数据分析时代2

1.3简单、粗暴、有效——这就是Hadoop3

1.4 MapReduce与Hadoop4

1.5看,大象也会跳舞6

本章小结7

第2章 大象的肚子——HDFS文件系统详解8

2.1HDFS基础详解8

2.1.1 HDFS设计思路9

2.1.2 HDFS架构与基本存储单元10

2.2 HDFS数据存取流程分析11

2.2.1 HDFS数据存储位置与复制详解12

2.2.2 HDFS输入流程分析14

2.2.3 HDFS输出流程分析15

2.3 HDFS命令行操作详解16

2.3.1 HDFS中4个通用的命令行操作17

2.3.2 HDFS文件18个基本命令行的操作17

2.3.3 HDFS文件访问权限详解21

2.4通过Web浏览HDFS文件22

2.5 HDFS接口使用详解24

2.5.1使用FileSystem API操作HDFS中的内容24

2.5.2使用FileSystem API读取数据详解26

2.5.3使用FileSystem API写入数据详解29

2.6 HDFS文件同步与并发访问32

本章小结32

第3章 “吃下去吐出来”——Hadoop文件I/O系统详解34

3.1Hadoop的压缩类型介绍34

3.2 Hadoop的压缩类库36

3.2.1从一个简单的例子开始36

3.2.2 CompressionCodec接口36

3.2.3 CompressionCodecFactory类详解38

3.2.4压缩池40

3.2.5在Hadoop中使用压缩41

3.3 I/O中序列化类型详解43

3.3.1 Text类详解44

3.3.2 IntWritable类详解49

3.3.3 ObjectWritable类详解50

3.3.4 NullWritable类详解51

3.3.5 ByteWritable类详解52

3.4实现自定义的Writable类型52

3.4.1 Writable接口53

3.4.2 WritableComparable接口与RawComparator接口54

3.4.3自定义的Writable类55

3.4.4为了更快的比较57

3.5 Hadoop中小文件处理详解60

3.5.1 SequenceFile详解60

3.5.2 MapFile详解65

本章小结68

第4章“大象的大脑”——MapReduce框架结构与源码分析69

4.1 MapReduce框架结构与源码分析69

4.1.1 MapReduce框架分析与执行过程详解70

4.1.2 MapReduce输入输出与源码分析72

4.1.3 MapReduce中Job类详解76

4.2编程实战:经典的MapReduce单词计数程序80

4.2.1准备工作81

4.2.2 MapReduce过程分析82

4.2.3计数程序的MapReduce实现84

4.2.4计数程序的main方法86

4.2.5注意事项87

4.2.6运行结果89

4.2.7 Mapper中的Combiner详解91

本章小结91

第5章 深入!MapReduce配置与测试93

5.1 MapReduce环境变量配置详解93

5.1.1使用XML配置新的配置文件93

5.1.2修改已有的配置文件95

5.1.3辅助类ToolRunner、Configured详解98

5.2使用MRUnit对MapReduce进行测试101

5.2.1 MRUnit简介与使用101

5.2.2使用MRUnit完成Mapper单元测试103

5.2.3使用MRUnit完成Reduce单元测试104

5.2.4使用MRUnit完成MapReduce单元测试105

5.3在本地磁盘上进行MapReduce测试106

5.3.1伪环境欺骗107

5.3.2在Eclipse中配置Hadoop插件107

5.3.3编写本地测试代码110

5.4 MapReduce计数器114

5.4.1使用计数器的MapReduce程序设计114

5.4.2通过Web接口进行任务分析117

5.4.3通过Web接口查看计数器120

本章小结122

第6章 大象的思考流程——MapReduce运行流程详解123

6.1经典MapReduce任务的工作流程123

6.1.1 ClientNode执行任务的初始化124

6.1.2消息传递125

6.1.3 MapReduce任务的执行126

6.1.4任务的完成与状态更新126

6.2经典MapReduce任务异常处理详解127

6.2.1 MapReduce任务异常的处理方式127

6.2.2 MapReduce任务失败的处理方式130

6.3经典MapReduce任务的数据处理过程131

6.3.1 Map端的输入数据处理过程132

6.3.2 Reduce端的输入数据处理过程132

6.3.3 Java虚拟机重用133

6.4 MapReduce 2.0 (YARN)工作流程详解133

6.4.1 YARN概述134

6.4.2 YARN任务过程分析136

6.4.3 YARN的异常处理137

本章小结138

第7章 更强的大象——MapReduce高级程序设计续139

7.1MapReduce程序设计默认格式类型详解139

7.1.1 map与reduce方法的默认输入输出类型139

7.1.2自定义输入输出类型设置140

7.1.3自定义全局类型变量设置要求143

7.1.4默认的MapReduce程序设置145

7.2 InputFormat输入格式详解147

7.2.1输入记录与分区148

7.2.2 InputFormat源码及执行过程分析149

7.2.3实现自己的RecordReader类150

7.2.4自定义的FileInputFormat类154

7.2.5一些常用的InputFormat类详解158

7.3 OutputFormat输出格式详解160

7.3.1 OutputFormat默认输出格式160

7.3.2自定义OutputFormat输出格式161

7.3.3对Reduce任务数进行设置165

7.3.4 OutputFormat分区类Partitioner详解168

7.4多种输入与输出使用介绍174

7.4.1 MultipleInputs多种输入方式详解174

7.4.2 MultipleOutputs多种输出方式详解175

本章小结176

第8章MapReduce相关特性详解177

8.1MapReduce计数器177

8.1.1 Hadoop框架内置的计数器177

8.1.2自定义计数器181

8.1.3动态计数器184

8.1.4获取计数器值186

8.2排序与查找187

8.2.1普通排序规则与查找188

8.2.2使用MapFile进行排序与查找189

8.3对输出结果的值分组排序193

8.3.1准备工作193

8.3.2对结果进行分组处理195

8.3.3对键的二次排序196

8.3.4自定义输出分组198

8.4编程实战:使用二次排序自动查找最小值199

8.4.1思路分析200

8.4.2验证输入输出结果202

8.4.3对结果进行二次排序204

8.4.4对结果进行分组205

8.4.5分片处理排序与分组206

8.4.6验证结果207

本章小结211

第9章 啤酒与尿布——MapReduce连接与数据挖掘初步212

9.1对于同样格式数据进行MapReduce连接212

9.2对于不同格式数据进行MapReduce连接216

9.3不能说的秘密——啤酒与尿布219

9.3.1销售清单的秘密219

9.3.2设计程序220

9.3.3程序执行结果221

9.4数据挖掘初步223

本章小结226

第10章MapReduce实战编程及深度分析227

10.1编程实战:自定义数据库中读取数据227

10.1.1准备工作227

10.1.2程序分析228

10.1.3自定义SQLInputFormat229

10.1.4使用自定义程序从数据库中读取数据232

10.1.5程序运行及数据分析234

10.1.6使用合并记录进行性能调优236

10.2编程实战:串联寻找共同转载微博239

10.2.1应用分析240

10.2.2第一步表转换241

10.2.3建立关注连接243

10.2.4自定义的OutputFormat245

10.2.5串联解决共同转载微博246

10.2.6性能调优及后续处理250

10.3编程实战:云存储模型251

10.3.1应用分析251

10.3.2 Tomcat简介252

10.3.3配置Tomcat服务器254

10.3.4测试Tomcat服务器256

10.3.5在Eclipse中配置Tomcat257

10.3.6创建云存储目录260

10.3.7获取云存储列表262

10.3.8将文件上传至数据云存储中264

10.3.9删除文件269

10.3.10下载云端存储文件270

10.3.11程序执行与性能调优272

10.4编程实战:多文档相似关键字检索272

10.4.1应用分析273

10.4.2自定义任务处理类275

10.4.3程序执行及后续分析277

10.5编程实战:学生成绩整理与分组279

10.5.1应用分析279

10.5.2自定义的ScoreWritable280

10.5.3自定义的MapReduce281

10.5.4自定义的分组282

10.5.5程序运行结果283

10.5.6采用更多分组类型289

本章小结289

热门推荐