图书介绍
图灵程序设计丛书 Spark快速大数据分析PDF|Epub|txt|kindle电子书版本网盘下载
![图灵程序设计丛书 Spark快速大数据分析](https://www.shukui.net/cover/41/30030623.jpg)
- (美)卡劳著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115403094
- 出版时间:2015
- 标注页数:210页
- 文件大小:26MB
- 文件页数:233页
- 主题词:数据处理软件
PDF下载
下载说明
图灵程序设计丛书 Spark快速大数据分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 Spark数据分析导论1
1.1 Spark是什么1
1.2.个大一统的软件栈2
1.2.1 Spark Core2
1.2.2 Spark SQL3
1.2.3 Spark Streaming3
1.2.4 MLlib3
1.2.5 GraphX3
1.2.6集群管理器4
1.3 Spark的用户和用途4
1.3.1数据科学任务4
1.3.2数据处理应用5
1.4 Spark简史5
1.5 Spark的版本和发布6
1.6 Spark的存储层次6
第2章 Spark下载与入门7
2.1下载Spark7
2.2 Spark中Python和Scala的shell9
2.3 Spark核心概念简介12
2.4独立应用14
2.4.1初始化SparkContext15
2.4.2构建独立应用16
2.5总结19
第3章 RDD编程21
3.1 RDD基础21
3.2创建RDD23
3.3 RDD操作24
3.3.1转化操作24
3.3.2行动操作26
3.3.3惰性求值27
3.4向Spark传递函数27
3.4.1 Python27
3.4.2 Scala28
3.4.3 Java29
3.5常见的转化操作和行动操作30
3.5.1基本RDD30
3.5.2在不同RDD类型间转换37
3.6持久化(缓存)39
3.7总结40
第4章 键值对操作41
4.1动机41
4.2创建Pair RDD42
4.3 Pair RDD的转化操作42
4.3.1聚合操作45
4.3.2数据分组49
4.3.3连接50
4.3.4数据排序51
4.4 Pair RDD的行动操作52
4.5数据分区(进阶)52
4.5.1获取RDD的分区方式55
4.5.2从分区中获益的操作56
4.5.3影响分区方式的操作57
4.5.4示例:PageRank57
4.5.5自定义分区方式59
4.6总结61
第5章 数据读取与保存63
5.1动机63
5.2文件格式64
5.2.1文本文件64
5.2.2 JSON66
5.2.3逗号分隔值与制表符分隔值68
5.2.4 SequenceFile71
5.2.5对象文件73
5.2.6 Hadoop输入输出格式73
5.2.7文件压缩77
5.3文件系统78
5.3.1本地/“常规”文件系统78
5.3.2 Amazon S378
5.3.3 HDFS79
5.4 Spark SQL中的结构化数据79
5.4.1 Apache Hive80
5.4.2 JSON80
5.5数据库81
5.5.1 Java数据库连接81
5.5.2 Cassandra82
5.5.3 HBase84
5.5.4 Elasticsearch85
5.6总结86
第6章 Spark编程进阶87
6.1简介87
6.2累加器88
6.2.1累加器与容错性90
6.2.2自定义累加器91
6.3广播变量91
6.4基于分区进行操作94
6.5与外部程序间的管道96
6.6数值RDD的操作99
6.7总结100
第7章 在集群上运行Spark101
7.1简介101
7.2 Spark运行时架构101
7.2.1驱动器节点102
7.2.2执行器节点103
7.2.3集群管理器103
7.2.4启动一个程序104
7.2.5小结104
7.3使用spark-submit部署应用105
7.4打包代码与依赖107
7.4.1使用Maven构建的用Java编写的Spark应用108
7.4.2使用sbt构建的用Scala编写的Spark应用109
7.4.3依赖冲突111
7.5 Spark应用内与应用间调度111
7.6集群管理器112
7.6.1独立集群管理器112
7.6.2 Hadoop YARN115
7.6.3 Apache Mesos116
7.6.4 Amazon EC2117
7.7选择合适的集群管理器120
7.8总结121
第8章 Spark调优与调试123
8.1使用SparkConf配置Spark123
8.2 Spark执行的组成部分:作业、任务和步骤127
8.3查找信息131
8.3.1 Spark网页用户界面131
8.3.2驱动器进程和执行器进程的日志134
8.4关键性能考量135
8.4.1并行度135
8.4.2序列化格式136
8.4.3内存管理137
8.4.4硬件供给138
8.5总结139
第9章 Spark SQL141
9.1连接Spark SQL142
9.2在应用中使用Spark SQL144
9.2.1初始化Spark SQL144
9.2.2基本查询示例145
9.2.3 SchemaRDD146
9.2.4缓存148
9.3读取和存储数据149
9.3.1 Apache Hive149
9.3.2 Parquet150
9.3.3 JSON150
9.3.4基于RDD152
9.4 JDBC/ODBC服务器153
9.4.1使用Beeline155
9.4.2长生命周期的表与查询156
9.5用户自定义函数156
9.5.1 Spark SQL UDF156
9.5.2 Hive UDF157
9.6 Spark SQL性能158
9.7总结159
第10章 Spark Streaming161
10.1一个简单的例子162
10.2架构与抽象164
10.3转化操作167
10.3.1无状态转化操作167
10.3.2有状态转化操作169
10.4输出操作173
10.5输入源175
10.5.1核心数据源175
10.5.2附加数据源176
10.5.3多数据源与集群规模179
10.6 24/7不间断运行180
10.6.1检查点机制180
10.6.2驱动器程序容错181
10.6.3工作节点容错182
10.6.4接收器容错182
10.6.5处理保证183
10.7 Streaming用户界面183
10.8性能考量184
10.8.1批次和窗口大小184
10.8.2并行度184
10.8.3垃圾回收和内存使用185
10.9总结185
第11章 基于MLlib的机器学习187
11.1概述187
11.2系统要求188
11.3机器学习基础189
11.4数据类型192
11.5算法194
11.5.1特征提取194
11.5.2统计196
11.5.3分类与回归197
11.5.4聚类202
11.5.5协同过滤与推荐203
11.5.6降维204
11.5.7模型评估206
11.6一些提示与性能考量206
11.6.1准备特征206
11.6.2配置算法207
11.6.3缓存RDD以重复使用207
11.6.4识别稀疏程度207
11.6.5并行度207
11.7流水线API208
11.8总结209
作者简介210
封面介绍210