图书介绍
寻路大数据 海量数据与大规模分析PDF|Epub|txt|kindle电子书版本网盘下载
![寻路大数据 海量数据与大规模分析](https://www.shukui.net/cover/64/34415444.jpg)
- (美)马诺切里著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121244728
- 出版时间:2014
- 标注页数:215页
- 文件大小:33MB
- 文件页数:245页
- 主题词:数据处理
PDF下载
下载说明
寻路大数据 海量数据与大规模分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1部分 大数据时代指引1
第1章 数据成功四原则3
1.1 当数据成为一件“大”事3
1.2 数据和单台服务器4
1.3 大数据的权衡5
1.3.1 构建可(无限)扩展的解决方案6
1.3.2 构建可(在互联网上)共享数据的系统7
1.3.3 构建解决方案,而非基础设施8
1.3.4 关注从数据中解放价值8
1.4 大数据流水线剖析9
1.5 终极数据库10
1.6 总结10
第2部分 收集和共享海量数据13
第2章 托管和共享TB级原始数据15
2.1 文件之殇16
2.1.1 共享大量文件的挑战16
2.2 存储:基础设施即服务17
2.2.1 网络很慢18
2.3 选择合适的数据格式18
2.3.1 XML:数据,描述你自己20
2.3.2 JSON:程序员的选择21
2.4 字符编码22
2.4.1 文件转换24
2.5 移动中的数据:数据序列化格式25
2.5.1 ApacheThrift和Protocol Buffers26
2.6 总结27
第3章 构建基于NoSQL的Web应用采集众包数据29
3.1 关系型数据库:命令及控制30
3.1.1 关系数据库的ACID测试32
3.2 当关系型数据库遇上互联网33
3.2.1 CAP原理与BASE34
3.3 非关系型数据库的模式36
3.3.1 键-值数据库36
3.3.2 文档存储38
3.4 为写入性能优化:Redis40
3.5 在多个Redis实例上分片43
3.5.1 使用Twemproxy自动分区44
3.5.2 Redis的替代选项46
3.6 NewSQL:Codd归来46
3.7 总结47
第4章 解决数据孤岛问题的策略49
4.1 堆满术语的仓库49
4.1.1 实践中的问题51
4.1.2 数据合规与安全规划52
4.1.3 走进数据仓库53
4.1.4 数据仓库的口诀:抽取、转换和加载54
4.2 Hadoop:数据仓库中的大象55
4.3 数据孤岛也可能是个优点55
4.3.1 专注于数据问题,而不是技术56
4.3.2 鼓励员工提出他们自己的问题57
4.3.3 投资沟通数据孤岛的技术57
4.4 融合:数据孤岛的终结58
4.4.1 Luhn的商业智能系统是否能成为现实59
4.5 总结59
第3部分 数据探究61
第5章 使用Hadoop、Hive和Shark探索大规模数据集63
5.1 什么是数据仓库64
5.2 Apache Hive:在Hadoop上进行交互式查询66
5.2.1 Hive用例66
5.2.2 Hive实战67
5.2.3 在Hive中使用其他数据源71
5.3 Shark:以内存的速度进行查询72
5.4 云中的数据仓库73
5.5 总结74
第6章 使用Google BigQuery构建数据信息中心77
6.1 分析型数据库78
6.2 Dremel:均贫富79
6.2.1 Dremel与MapReduce的不同之处80
6.3 BigQuery:数据分析即服务81
6.3.1 BigQuery的查询语言82
6.4 建造自己的大数据信息面板83
6.4.1 授权访问BigQuery API84
6.4.2 运行查询并获取结果87
6.4.3 缓存查询结果88
6.4.4 添加可视化图形89
6.5 分析型查询引擎的未来91
6.6 总结91
第7章 探索大数据的可视化策略93
7.1 警世良言:将数据翻译成故事94
7.2 人类尺度VS机器尺度97
7.2.1 交互性97
7.3 开发交互式数据应用98
7.3.1 使用R和ggplot2实现交互式可视化98
7.3.2 matplotlib:Python的2D图形库100
7.3.3 D3.js:用于Web的交互式可视化库100
7.4 总结104
第4部分 构建数据流水线107
第8章 整合:MapReduce数据流水线109
8.1 数据流水线是什么109
8.1.1 正确的工具110
8.2 使用Hadoop Streaming搭建数据流水线111
8.2.1 MapReduce和数据转换111
8.2.2 最简单的流水线:stdin到stdout113
8.3 单步MapReduce变换115
8.3.1 从原始NVSS数据中抽取相关信息:map阶段116
8.3.2 合计每月出生数:reducer阶段117
8.3.3 在本地测试MapReduce流水线118
8.3.4 在Hadoop集群上运行我们的MapReduce作业119
8.4 降低复杂性:Hadoop 上 Python的MapReduce框架120
8.4.1 使用mrjob重写Hadoop Streaming示例121
8.4.2 建造一个多步流水线122
8.4.3 在Elastic MapReduce上运行mrjob脚本124
8.4.4 其他基于Python的MapReduce框架125
8.5 总结125
第9章 使用Pig和Cascading构建数据转换工作流127
9.1 大规模数据工作流实战128
9.2 多步MapReduce转换真复杂128
9.2.1 Apache Pig:拒绝复杂129
9.2.2 使用交互式Grunt shell运行Pig130
9.2.3 过滤和优化数据工作流132
9.2.4 以批处理模式运行Pig脚本132
9.3 Cascading:构建健壮的数据工作流应用133
9.3.1 以source和sink的方式思考134
9.3.2 构建Cascading应用135
9.3.3 创建一个Cascade:一个简单的JOIN例子136
9.3.4 在Hadoop集群上部署Cascading应用138
9.4 何时选择Pig或Cascading139
9.5 总结140
第5部分 基于大规模数据集的机器学习141
第10章 使用Mahout构建数据分类系统143
10.1 机器能否预测未来144
10.2 机器学习的挑战144
10.2.1 贝叶斯分类146
10.2.2 聚类146
10.2.3 推荐引擎148
10.3 Apache Mahout:可伸缩的机器学习工具148
10.3.1 使用Mahout进行文本分类149
10.4 MLbase:分布式机器学习框架152
10.5 总结152
第6部分 基于大规模数据集的统计分析155
第11章 使用R语言处理大数据集157
11.1 统计学为什么性感158
11.1.1 R处理大型数据集的局限性159
11.1.2 R的数据帧和矩阵161
11.2 处理大数据集的策略162
11.2.1 大矩阵处理:bigmemory和biganalytics162
11.2.2 ff:使用大于内存的数据帧164
11.2.3 biglm:大规模数据集的线性回归165
11.2.4 RHadoop:使用R访问ApacheHadoop166
11.3 总结168
第12章 使用Python和Pandas构建分析工作流171
12.1 数据乐园中自在的蟒蛇——Python172
12.1.1 为统计性计算选择一门语言172
12.1.2 扩展现有代码173
12.1.3 工具和测试174
12.2 用于数据处理的Python库174
12.2.1 NumPy175
12.2.2 SciPy:Python的科学计算库176
12.2.3 数据分析库Pandas178
12.3 构建更复杂的工作流182
12.3.1 处理损坏或丢失的记录184
12.4 iPython:科学计算工具链的最后一环185
12.4.1 在集群上并行执行iPython186
12.5 总结190
第7部分 展望未来191
第13章 何时选择自制、购买或外包193
13.1 功能重合的解决方案193
13.2 理解你的数据问题195
13.3 自制还是购买问题的参考手册197
13.3.1 你已经对哪些技术有所投入197
13.3.2 从小处着手198
13.3.3 规划时考虑可扩展性198
13.4 私人数据中心199
13.5 了解开源的成本201
13.6 一切皆服务202
13.7 总结202
第14章 未来:数据科技的几个趋势205
14.1 Hadoop:搅局者与被搅局者206
14.2 一切皆在云中208
14.3 数据科学家的兴衰209
14.4 融合:终极数据库212
14.5 文化融合213
14.6 总结214