图书介绍

普通高等教育新工科人才培养规划教材 Hive编程技术与应用 大数据专业PDF|Epub|txt|kindle电子书版本网盘下载

普通高等教育新工科人才培养规划教材 Hive编程技术与应用 大数据专业
  • 孙帅,王美佳主编;李紫薇,邹先锋,张美娟,臧红久副主编 著
  • 出版社: 北京:中国水利水电出版社
  • ISBN:9787517069140
  • 出版时间:2018
  • 标注页数:153页
  • 文件大小:18MB
  • 文件页数:160页
  • 主题词:数据库系统-程序设计-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

普通高等教育新工科人才培养规划教材 Hive编程技术与应用 大数据专业PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Hive介绍1

1.1 Hive工作原理1

1.2 Hive的数据类型2

1.3 Hive的特点4

1.4 本章小结4

第2章 Hive架构5

2.1 Hive用户接口5

2.1.1 Hive CLI5

2.1.2 HWI6

2.1.3 Thrift服务10

2.2 Hive元数据库11

2.2.1 Hive元数据表结构11

2.2.2 Hive元数据的三种存储模式12

2.3 Hive数据存储13

2.4 Hive文件格式14

2.4.1 TextFile格式14

2.4.2 SequenceFile格式14

2.4.3 RCFile格式14

2.4.4 ORC格式15

2.5 本章小结16

第3章 HiveQL表操作17

3.1 内部表17

3.2 外部表21

3.3 分区表23

3.3.1 静态分区25

3.3.2 动态分区27

3.4 桶表28

3.5 视图30

3.5.1 使用视图降低查询复杂度31

3.5.2 使用视图来限制基于条件过滤的数据32

3.5.3 动态分区中的视图和map类型32

3.6 本章小结33

第4章 HiveQL数据操作34

4.1 装载数据到表中34

4.2 通过查询语句向表中插入数据35

4.3 单个查询语句中创建并加载数据37

4.4 导出数据37

4.5 本章小结38

第5章 HiveQL查询39

5.1 SELECT...FROM语句39

5.1.1 使用正则表达式来指定列的40

5.1.2 使用列值进行计算41

5.1.3 算述运算符41

5.1.4 使用函数42

5.1.5 LIMIT语句46

5.1.6 列别名46

5.1.7 嵌套SELECT语句46

5.1.8 CAS...WHEN...THEN语句46

5.2 WHERE语句47

5.2.1 谓词操作符48

5.2.2 关于浮点数比较49

5.2.3 LIKE和RLIKE50

5.3 GROUP BY语句50

5.4 JOIN语句51

5.4.1 INNER JOIN51

5.4.2 JOIN优化53

5.4.3 LEFT OUTER JOIN53

5.4.4 RIGHT OUTER JOIN54

5.4.5 FULL OUTER JOIN54

5.4.6 LEFT SEMI JOIN54

5.4.7 笛卡尔积JOIN55

5.4.8 map-side JOIN55

5.5 ORDER BY和SORT BY56

5.6 含有SORT BY的DISTRIBUTE BY57

5.7 CLUSTER BY57

5.8 类型转换58

5.9 抽样查询58

5.9.1 数据块抽样59

5.9.2 分桶表的输入裁剪59

5.10 UNION ALL60

5.11 本章小结61

第6章 Hive配置与应用62

6.1 Hive安装与配置62

6.2 Hive访问65

6.3 Hive基本操作67

6.3.1 Hive CLI命令行操作讲解67

6.3.2 Hive的数据类型71

6.3.3 Hive表的创建73

6.3.4 Hive数据导入74

6.3.5 Hive数据导出76

6.4 Hive数据定义77

6.4.1 内部表与外部表的区别77

6.4.2 内部表建立77

6.4.3 外部表建立79

6.4.4 表的分区与桶的建立81

6.4.5 删除表与修改表结构87

6.4.6 HiveQL简单查询语句88

6.4.7 WHERE语句91

6.5 Hive高级查询91

6.6 本章小结98

第7章 Hive自定义函数99

7.1 UDF99

7.2 UDTF102

7.3 UDAF105

7.4 Hive函数综合案例109

7.4.1 Row_ Sequence实现列自增长109

7.4.2 列转行和行转列111

7.5 本章小结114

第8章 Hive综合案例(一)115

8.1 项目背景与数据情况115

8.2 关键指标KPI116

8.3 开发步骤分析116

8.4 表结构设计117

8.5 数据清洗过程118

8.5.1 定期上传日志至HDFS118

8.5.2 编写MapReduce程序清理日志119

8.5.3 定期清理日志至HDFS121

8.5.4 查询清洗前后的数据122

8.6 数据统计分析122

8.6.1 借助Hive进行统计122

8.6.2 使用HiveQL统计关键指标123

8.7 本章小结124

第9章 Hive综合案例(二)125

9.1 项目应用场景125

9.2 设计与实现125

9.2.1 日志格式分析125

9.2.2 建立表125

9.2.3 程序设计126

9.2.4 编码实现127

9.2.5 运行并测试129

9.3 本章小结129

第10章 Hive综合案例(三)130

10.1 应用场景130

10.2 设计与实现130

10.2.1 数据处理130

10.2.2 使用Hive对清洗后的数据进行多维分析132

10.2.3 在MySQL中建立数据库136

10.2.4 使用sqoop把分析结果导入到MySQL中136

10.2.5 程序设计与实现138

10.2.6 运行并测试138

10.3 本章总结139

附录140

热门推荐