图书介绍

大数据猩球 海量数据处理实践指南PDF|Epub|txt|kindle电子书版本网盘下载

大数据猩球 海量数据处理实践指南
  • (美)PhilipKromer,(美)RussellJurney著;唐李洋译 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121294181
  • 出版时间:2016
  • 标注页数:193页
  • 文件大小:77MB
  • 文件页数:211页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据猩球 海量数据处理实践指南PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 入门:理论和工具3

第1章 Hadoop基础3

黑猩猩和大象创业4

Map-Only作业:逐个处理记录5

Pig Latin Map-Only作业6

创建Docker Hadoop集群8

运行作业12

小结15

第2章 MapReduce17

黑猩猩和大象拯救圣诞节17

玩具岛上的麻烦17

黑猩猩把信件变成带标签的玩具表19

小象将玩具表送到适当的工作台21

示例:驯鹿游戏23

UFO数据24

根据报道延迟对UFO目击分组24

Mapper24

Reducer26

数据可视化29

驯鹿小结30

Hadoop与传统数据库30

MapReduce俳句31

Map阶段简述32

Group-Sort阶段简述32

Reduce阶段简述32

小结33

第3章 棒球数据集速览35

数据35

缩略词和术语36

规则和目标37

评价指标37

小结38

第4章 Pig入门39

Pig帮助Hadoop处理数据表,而不是记录39

维基百科访问数统计41

基本数据操作43

控制操作44

管道操作44

结构化操作44

LOAD定位并描述你的数据46

简单类型46

复杂类型1,元组:带类型字段的固长序列47

复杂类型2,袋:元组的无限集合47

定义变换后的记录模式48

STORE将数据写入磁盘49

辅助命令50

DESCRIBE50

DUMP50

SAMPLE50

ILLUSTRATE51

EXPLAIN51

Pig函数51

Piggybank53

Apache DataFu56

小结59

第二部分 战术:分析模式63

第5章 Map-Only操作63

模式用法63

清除数据64

选择满足条件的记录:FILTER等65

选择满足多个条件的记录66

选择或丢弃空值记录66

选择匹配正则表达式的记录(MATCHES)67

根据固定的值列表匹配记录70

按字段名投影字段71

使用FOREACH选择、重命名和重排序字段71

抽取记录的随机样本73

按key抽取一致性样本74

仅加载部分part-Files实现粗略抽样75

使用LIMIT选择固定数量的记录75

其他数据消除模式76

变换记录76

使用FOREACH逐个变换记录76

嵌套FOREACH允许使用中间表达式77

根据模版格式化字符串79

使用复杂类型组装字面值80

操纵字段的类型84

整型、浮点型和取整86

从外部包调用用户自定义函数87

将一个表分裂成多个表的操作88

将数据条件定向到多个数据流(SPLIT)88

将几个表联合成一个表的操作89

将多个Pig关系表合并成一个表(堆砌行集)89

小结91

第6章 分组操作93

按key将记录分组到袋93

模式用法97

统计key的出现次数97

使用带分隔符的字符串表示值的集合99

使用带分隔符的字符串表示复杂数据结构101

使用JSON编码的字符串表示复杂数据结构102

分组和聚合106

聚合组的统计数据106

完全汇总字段108

汇总整个表的聚合统计值110

汇总字符串字段111

使用直方图计算数值型值的分布情况113

模式用法114

直方图的数据分箱114

确定箱子的大小116

解释直方图和分位数118

将数据分箱到规模呈指数变化的块119

为通用代码段创建Pig宏121

比赛分布情况121

极端情况和干扰因子122

不要相信尾部分布125

计算相对分布直方图126

重新注入全局值127

在组内计算直方图128

导出可读结果130

汇总技巧132

统计组的条件子集——汇总技巧132

同时汇总组的多个子集134

测试组内某个值是否缺失136

小结137

参考文献138

第7章 表连接139

匹配表记录(内连接)140

将一个表的记录与另一个表的记录直接匹配连接(直接内连接)140

连接是怎么工作的142

连接就是COGROUP+FLATTEN142

连接就是在表名上进行二次排序的MapReduce作业143

处理连接和分组中的空值和不匹配145

枚举多对多关系147

连接表和它自己(自连接)148

包含不匹配记录的连接(外连接)150

模式用法152

连接不含外键关系的表153

连接整型表填补列表中的空白155

仅选择与另一个表不匹配的记录(反连接)157

仅选择与另一个表匹配的记录(半连接)158

反连接的另一种方式:使用COGROUP158

小结160

第8章 排序操作161

准备职业生涯时期161

对所有记录进行全排序163

多字段排序164

表达式排序(行不通)164

大小写不敏感的字符串排序165

排序的空值处理165

将值放到排序顺序的顶部或底端166

组内排序167

模式用法169

根据字段值的Top-K选择行169

组内Top-K170

按照排序顺序给记录编号170

找出最大值对应的记录171

对一组记录进行混排171

小结172

第9章 重复记录和唯一记录173

处理重复173

消除表中的重复记录174

消除组内的重复记录174

基于键消除重复175

基于键选择唯一(或重复)记录176

集合操作177

全表上的集合操作178

Distinct Union179

Distinct Union(其他方法)179

Set Intersection179

Set Difference180

Symmetric Difference:(A-B)+(B-A)180

Set Equality181

组内集合操作182

构造一个集合序列182

某个组内的集合操作183

小结185

索引187

热门推荐