图书介绍

图灵程序设计丛书 Spark快速大数据分析PDF|Epub|txt|kindle电子书版本网盘下载

图灵程序设计丛书 Spark快速大数据分析
  • (美)卡劳著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115403094
  • 出版时间:2015
  • 标注页数:210页
  • 文件大小:26MB
  • 文件页数:233页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

图灵程序设计丛书 Spark快速大数据分析PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Spark数据分析导论1

1.1 Spark是什么1

1.2.个大一统的软件栈2

1.2.1 Spark Core2

1.2.2 Spark SQL3

1.2.3 Spark Streaming3

1.2.4 MLlib3

1.2.5 GraphX3

1.2.6集群管理器4

1.3 Spark的用户和用途4

1.3.1数据科学任务4

1.3.2数据处理应用5

1.4 Spark简史5

1.5 Spark的版本和发布6

1.6 Spark的存储层次6

第2章 Spark下载与入门7

2.1下载Spark7

2.2 Spark中Python和Scala的shell9

2.3 Spark核心概念简介12

2.4独立应用14

2.4.1初始化SparkContext15

2.4.2构建独立应用16

2.5总结19

第3章 RDD编程21

3.1 RDD基础21

3.2创建RDD23

3.3 RDD操作24

3.3.1转化操作24

3.3.2行动操作26

3.3.3惰性求值27

3.4向Spark传递函数27

3.4.1 Python27

3.4.2 Scala28

3.4.3 Java29

3.5常见的转化操作和行动操作30

3.5.1基本RDD30

3.5.2在不同RDD类型间转换37

3.6持久化(缓存)39

3.7总结40

第4章 键值对操作41

4.1动机41

4.2创建Pair RDD42

4.3 Pair RDD的转化操作42

4.3.1聚合操作45

4.3.2数据分组49

4.3.3连接50

4.3.4数据排序51

4.4 Pair RDD的行动操作52

4.5数据分区(进阶)52

4.5.1获取RDD的分区方式55

4.5.2从分区中获益的操作56

4.5.3影响分区方式的操作57

4.5.4示例:PageRank57

4.5.5自定义分区方式59

4.6总结61

第5章 数据读取与保存63

5.1动机63

5.2文件格式64

5.2.1文本文件64

5.2.2 JSON66

5.2.3逗号分隔值与制表符分隔值68

5.2.4 SequenceFile71

5.2.5对象文件73

5.2.6 Hadoop输入输出格式73

5.2.7文件压缩77

5.3文件系统78

5.3.1本地/“常规”文件系统78

5.3.2 Amazon S378

5.3.3 HDFS79

5.4 Spark SQL中的结构化数据79

5.4.1 Apache Hive80

5.4.2 JSON80

5.5数据库81

5.5.1 Java数据库连接81

5.5.2 Cassandra82

5.5.3 HBase84

5.5.4 Elasticsearch85

5.6总结86

第6章 Spark编程进阶87

6.1简介87

6.2累加器88

6.2.1累加器与容错性90

6.2.2自定义累加器91

6.3广播变量91

6.4基于分区进行操作94

6.5与外部程序间的管道96

6.6数值RDD的操作99

6.7总结100

第7章 在集群上运行Spark101

7.1简介101

7.2 Spark运行时架构101

7.2.1驱动器节点102

7.2.2执行器节点103

7.2.3集群管理器103

7.2.4启动一个程序104

7.2.5小结104

7.3使用spark-submit部署应用105

7.4打包代码与依赖107

7.4.1使用Maven构建的用Java编写的Spark应用108

7.4.2使用sbt构建的用Scala编写的Spark应用109

7.4.3依赖冲突111

7.5 Spark应用内与应用间调度111

7.6集群管理器112

7.6.1独立集群管理器112

7.6.2 Hadoop YARN115

7.6.3 Apache Mesos116

7.6.4 Amazon EC2117

7.7选择合适的集群管理器120

7.8总结121

第8章 Spark调优与调试123

8.1使用SparkConf配置Spark123

8.2 Spark执行的组成部分:作业、任务和步骤127

8.3查找信息131

8.3.1 Spark网页用户界面131

8.3.2驱动器进程和执行器进程的日志134

8.4关键性能考量135

8.4.1并行度135

8.4.2序列化格式136

8.4.3内存管理137

8.4.4硬件供给138

8.5总结139

第9章 Spark SQL141

9.1连接Spark SQL142

9.2在应用中使用Spark SQL144

9.2.1初始化Spark SQL144

9.2.2基本查询示例145

9.2.3 SchemaRDD146

9.2.4缓存148

9.3读取和存储数据149

9.3.1 Apache Hive149

9.3.2 Parquet150

9.3.3 JSON150

9.3.4基于RDD152

9.4 JDBC/ODBC服务器153

9.4.1使用Beeline155

9.4.2长生命周期的表与查询156

9.5用户自定义函数156

9.5.1 Spark SQL UDF156

9.5.2 Hive UDF157

9.6 Spark SQL性能158

9.7总结159

第10章 Spark Streaming161

10.1一个简单的例子162

10.2架构与抽象164

10.3转化操作167

10.3.1无状态转化操作167

10.3.2有状态转化操作169

10.4输出操作173

10.5输入源175

10.5.1核心数据源175

10.5.2附加数据源176

10.5.3多数据源与集群规模179

10.6 24/7不间断运行180

10.6.1检查点机制180

10.6.2驱动器程序容错181

10.6.3工作节点容错182

10.6.4接收器容错182

10.6.5处理保证183

10.7 Streaming用户界面183

10.8性能考量184

10.8.1批次和窗口大小184

10.8.2并行度184

10.8.3垃圾回收和内存使用185

10.9总结185

第11章 基于MLlib的机器学习187

11.1概述187

11.2系统要求188

11.3机器学习基础189

11.4数据类型192

11.5算法194

11.5.1特征提取194

11.5.2统计196

11.5.3分类与回归197

11.5.4聚类202

11.5.5协同过滤与推荐203

11.5.6降维204

11.5.7模型评估206

11.6一些提示与性能考量206

11.6.1准备特征206

11.6.2配置算法207

11.6.3缓存RDD以重复使用207

11.6.4识别稀疏程度207

11.6.5并行度207

11.7流水线API208

11.8总结209

作者简介210

封面介绍210

热门推荐