图书介绍
Spark大数据分析技术与实战PDF|Epub|txt|kindle电子书版本网盘下载
- 经管之家主编;董轶群等编著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121319037
- 出版时间:2017
- 标注页数:219页
- 文件大小:19MB
- 文件页数:235页
- 主题词:数据处理软件-技术培训-教材
PDF下载
下载说明
Spark大数据分析技术与实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 Spark导论1
1.1 Spark的发展2
1.2 什么是Spark3
1.3 Spark主要特征3
1.3.1 快速3
1.3.2 简洁易用5
1.3.3 通用6
1.3.4 多种运行模式8
第2章 Spark集群部署9
2.1 运行环境说明9
2.1.1 软硬件环境9
2.1.2 集群网络环境10
2.2 安装VMware Workstation 1110
2.3 安装CentOS 616
2.4 安装Hadoop21
2.4.1 克隆并启动虚拟机21
2.4.2 网络基本配置24
2.4.3 安装JDK27
2.4.4 免密钥登录配置28
2.4.5 Hadoop配置29
2.4.6 配置从节点33
2.4.7 配置系统文件33
2.4.8 启动Hadoop集群33
2.5 安装Scala35
2.6 安装Spark36
2.6.1 下载并解压Spark安装包36
2.6.2 配置Spark-env.sh37
2.6.3 配置Spark-defaults.conf37
2.6.4 配置Slaves38
2.6.5 配置环境变量38
2.6.6 发送至Slave1、Slave239
2.7 启动Spark39
第3章 RDD编程42
3.1 RDD定义42
3.2 RDD的特性43
3.2.1 分区43
3.2.2 依赖44
3.2.3 计算45
3.2.4 分区函数45
3.2.5 优先位置46
3.3 创建操作46
3.3.1 基于集合的创建操作47
3.3.2 基于外部存储的创建操作47
3.4 常见执行操作49
3.5 常见转换操作49
3.5.1 一元转换操作50
3.5.2 二元转换操作53
3.6 持久化操作56
3.7 存储操作58
第4章 Spark调度管理与应用程序开发59
4.1 Spark调度管理基本概念59
4.2 作业调度流程60
4.2.1 作业的生成与提交61
4.2.2 阶段的划分62
4.2.3 调度阶段的提交62
4.2.4 任务的提交与执行62
4.3 基于IntelliJ IDEA构建Spark应用程序64
4.3.1 安装IntelliJ IDEA64
4.3.2 创建Spark应用程序70
4.3.3 集群模式运行Spark应用程序81
第5章 GraphX87
5.1 GraphX概述87
5.2 GraphX基本原理89
5.2.1 图计算模型处理流程89
5.2.2 GraphX定义90
5.2.3 GraphX的特点90
5.3 GraphX设计与实现91
5.3.1 弹性分布式属性图91
5.3.2 图的数据模型92
5.3.3 图的存储模型94
5.3.4 GraphX模型框架97
5.4 GraphX操作97
5.4.1 创建图97
5.4.2 基本属性操作100
5.4.3 结构操作102
5.4.4 转换操作103
5.4.5 连接操作105
5.4.6 聚合操作106
5.5 GraphX案例解析107
5.5.1 PageRank算法与案例解析107
5.5.2 Triangle Count算法与案例解析110
第6章 Spark SQL113
6.1 Spark SQL概述113
6.2 Spark SQL逻辑架构116
6.2.1 SQL执行流程116
6.2.2 Catalyst117
6.3 Spark SQL CLI117
6.3.1 硬软件环境117
6.3.2 集群环境118
6.3.3 结合Hive118
6.3.4 启动Hive118
6.4 DataFrame编程模型119
6.4.1 DataFrame简介119
6.4.2 创建DataFrames120
6.4.3 保存DataFrames126
6.5 DataFrame常见操作127
6.5.1 数据展示127
6.5.2 常用列操作128
6.5.3 过滤131
6.5.4 排序132
6.5.5 其他常见操作134
6.6 基于Hive的学生信息管理系统的SQL查询案例与解析137
6.6.1 Spark SQL整合Hive137
6.6.2 构建数据仓库138
6.6.3 加载数据141
6.6.4 查询数据142
第7章 Spark Streaming146
7.1 Spark Streaming概述146
7.2 Spark Streaming基础概念147
7.2.1 批处理时间间隔147
7.2.2 窗口时间间隔148
7.2.3 滑动时间间隔148
7.3 DStream基本概念149
7.4 DStream的基本操作150
7.4.1 无状态转换操作150
7.4.2 有状态转换操作152
7.4.3 输出操作153
7.4.4 持久化操作154
7.5 数据源154
7.5.1 基础数据源154
7.5.2 高级数据源155
7.6 Spark Streaming编程模式与案例分析156
7.6.1 Spark Streaming编程模式156
7.6.2 文本文件数据处理案例(一)157
7.6.3 文本文件数据处理案例(二)160
7.6.4 网络数据处理案例(一)164
7.6.5 网络数据处理案例(二)171
7.6.6 stateful应用案例175
7.6.7 window应用案例180
7.7 性能考量185
7.7.1 运行时间优化185
7.7.2 内存使用与垃圾回收186
第8章 Spark MLlib187
8.1 Spark MLlib概述187
8.1.1 机器学习介绍187
8.1.2 Spark MLlib简介189
8.2 MLlib向量与矩阵190
8.2.1 MLlib向量190
8.2.2 MLlib矩阵192
8.3 Spark MLlib分类算法196
8.3.1 贝叶斯分类算法197
8.3.2 支持向量机算法201
8.3.3 决策树算法204
8.4 MLlib线性回归算法208
8.5 MLlib聚类算法212
8.6 MLlib协同过滤215