图书介绍
深度学习PDF|Epub|txt|kindle电子书版本网盘下载
![深度学习](https://www.shukui.net/cover/45/30496828.jpg)
- (美)伊恩·古德费洛著;赵申剑,黎彧君,符天凡,李凯译 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115461476
- 出版时间:2017
- 标注页数:500页
- 文件大小:467MB
- 文件页数:529页
- 主题词:机器学习
PDF下载
下载说明
深度学习PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 引言1
1.1 本书面向的读者7
1.2 深度学习的历史趋势8
1.2.1 神经网络的众多名称和命运变迁8
1.2.2 与日俱增的数据量12
1.2.3 与日俱增的模型规模13
1.2.4 与日俱增的精度、复杂度和对现实世界的冲击15
第1部分 应用数学与机器学习基础19
第2章 线性代数19
2.1 标量、向量、矩阵和张量19
2.2 矩阵和向量相乘21
2.3 单位矩阵和逆矩阵22
2.4 线性相关和生成子空间23
2.5 范数24
2.6 特殊类型的矩阵和向量25
2.7 特征分解26
2.8 奇异值分解28
2.9 Moore-Penrose伪逆28
2.10 迹运算29
2.11 行列式30
2.12 实例:主成分分析30
第3章 概率与信息论34
3.1 为什么要使用概率34
3.2 随机变量35
3.3 概率分布36
3.3.1 离散型变量和概率质量函数36
3.3.2 连续型变量和概率密度函数36
3.4 边缘概率37
3.5 条件概率37
3.6 条件概率的链式法则38
3.7 独立性和条件独立性38
3.8 期望、方差和协方差38
3.9 常用概率分布39
3.9.1 Bernoulli分布40
3.9.2 Multinoulli分布40
3.9.3 高斯分布40
3.9.4 指数分布和Laplace分布41
3.9.5 Dirac分布和经验分布42
3.9.6 分布的混合42
3.10 常用函数的有用性质43
3.11 贝叶斯规则45
3.12 连续型变量的技术细节45
3.13 信息论47
3.14 结构化概率模型49
第4章 数值计算52
4.1 上溢和下溢52
4.2 病态条件53
4.3 基于梯度的优化方法53
4.3.1 梯度之上:Jacobian和Hessian矩阵56
4.4 约束优化60
4.5 实例:线性最小二乘61
第5章 机器学习基础63
5.1 学习算法63
5.1.1 任务T63
5.1.2 性能度量P66
5.1.3 经验E66
5.1.4 示例:线性回归68
5.2 容量、过拟合和欠拟合70
5.2.1 没有免费午餐定理73
5.2.2 正则化74
5.3 超参数和验证集76
5.3.1 交叉验证76
5.4 估计、偏差和方差77
5.4.1 点估计77
5.4.2 偏差78
5.4.3 方差和标准差80
5.4.4 权衡偏差和方差以最小化均方误差81
5.4.5 一致性82
5.5 最大似然估计82
5.5.1 条件对数似然和均方误差84
5.5.2 最大似然的性质84
5.6 贝叶斯统计85
5.6.1 最大后验(MAP)估计87
5.7 监督学习算法88
5.7.1 概率监督学习88
5.7.2 支持向量机88
5.7.3 其他简单的监督学习算法90
5.8 无监督学习算法91
5.8.1 主成分分析92
5.8.2 k-均值聚类94
5.9 随机梯度下降94
5.10 构建机器学习算法96
5.11 促使深度学习发展的挑战96
5.11.1 维数灾难97
5.11.2 局部不变性和平滑正则化97
5.11.3 流形学习99
第2部分 深度网络:现代实践105
第6章 深度前馈网络105
6.1 实例:学习XOR107
6.2 基于梯度的学习110
6.2.1 代价函数111
6.2.2 输出单元113
6.3 隐藏单元119
6.3.1 整流线性单元及其扩展120
6.3.2 logistic sigmoid与双曲正切函数121
6.3.3 其他隐藏单元122
6.4 架构设计123
6.4.1 万能近似性质和深度123
6.4.2 其他架构上的考虑126
6.5 反向传播和其他的微分算法126
6.5.1 计算图127
6.5.2 微积分中的链式法则128
6.5.3 递归地使用链式法则来实现反向传播128
6.5.4 全连接MLP中的反向传播计算131
6.5.5 符号到符号的导数131
6.5.6 一般化的反向传播133
6.5.7 实例:用于MLP训练的反向传播135
6.5.8 复杂化137
6.5.9 深度学习界以外的微分137
6.5.10 高阶微分138
6.6 历史小记139
第7章 深度学习中的正则化141
7.1 参数范数惩罚142
7.1.1 L2参数正则化142
7.1.2 L1正则化144
7.2 作为约束的范数惩罚146
7.3 正则化和欠约束问题147
7.4 数据集增强148
7.5 噪声鲁棒性149
7.5.1 向输出目标注入噪声150
7.6 半监督学习150
7.7 多任务学习150
7.8 提前终止151
7.9 参数绑定和参数共享156
7.9.1 卷积神经网络156
7.10 稀疏表示157
7.11 Bagging和其他集成方法158
7.12 Dropout159
7.13 对抗训练165
7.14 切面距离、正切传播和流形正切分类器167
第8章 深度模型中的优化169
8.1 学习和纯优化有什么不同169
8.1.1 经验风险最小化169
8.1.2 代理损失函数和提前终止170
8.1.3 批量算法和小批量算法170
8.2 神经网络优化中的挑战173
8.2.1 病态173
8.2.2 局部极小值174
8.2.3 高原、鞍点和其他平坦区域175
8.2.4 悬崖和梯度爆炸177
8.2.5 长期依赖177
8.2.6 非精确梯度178
8.2.7 局部和全局结构间的弱对应178
8.2.8 优化的理论限制179
8.3 基本算法180
8.3.1 随机梯度下降180
8.3.2 动量181
8.3.3 Nesterov动量183
8.4 参数初始化策略184
8.5 自适应学习率算法187
8.5.1 AdaGrad187
8.5.2 RMSProp188
8.5.3 Adam189
8.5.4 选择正确的优化算法190
8.6 二阶近似方法190
8.6.1 牛顿法190
8.6.2 共轭梯度191
8.6.3 BFGS193
8.7 优化策略和元算法194
8.7.1 批标准化194
8.7.2 坐标下降196
8.7.3 Polyak平均197
8.7.4 监督预训练197
8.7.5 设计有助于优化的模型199
8.7.6 延拓法和课程学习199
第9章 卷积网络201
9.1 卷积运算201
9.2 动机203
9.3 池化207
9.4 卷积与池化作为一种无限强的先验210
9.5 基本卷积函数的变体211
9.6 结构化输出218
9.7 数据类型219
9.8 高效的卷积算法220
9.9 随机或无监督的特征220
9.10 卷积网络的神经科学基础221
9.11 卷积网络与深度学习的历史226
第10章 序列建模:循环和递归网络227
10.1 展开计算图228
10.2 循环神经网络230
10.2.1 导师驱动过程和输出循环网络232
10.2.2 计算循环神经网络的梯度233
10.2.3 作为有向图模型的循环网络235
10.2.4 基于上下文的RNN序列建模237
10.3 双向RNN239
10.4 基于编码-解码的序列到序列架构240
10.5 深度循环网络242
10.6 递归神经网络243
10.7 长期依赖的挑战244
10.8 回声状态网络245
10.9 渗漏单元和其他多时间尺度的策略247
10.9.1 时间维度的跳跃连接247
10.9.2 渗漏单元和一系列不同时间尺度247
10.9.3 删除连接248
10.10 长短期记忆和其他门控RNN248
10.10.1 LSTM248
10.10.2 其他门控RNN250
10.11 优化长期依赖251
10.11.1 截断梯度251
10.11.2 引导信息流的正则化252
10.12 外显记忆253
第11章 实践方法论256
11.1 性能度量256
11.2 默认的基准模型258
11.3 决定是否收集更多数据259
11.4 选择超参数259
11.4.1 手动调整超参数259
11.4.2 自动超参数优化算法262
11.4.3 网格搜索262
11.4.4 随机搜索263
11.4.5 基于模型的超参数优化264
11.5 调试策略264
11.6 示例:多位数字识别267
第12章 应用269
12.1 大规模深度学习269
12.1.1 快速的CPU实现269
12.1.2 GPU实现269
12.1.3 大规模的分布式实现271
12.1.4 模型压缩271
12.1.5 动态结构272
12.1.6 深度网络的专用硬件实现273
12.2 计算机视觉274
12.2.1 预处理275
12.2.2 数据集增强277
12.3 语音识别278
12.4 自然语言处理279
12.4.1 n-gram280
12.4.2 神经语言模型281
12.4.3 高维输出282
12.4.4 结合n-gram和神经语言模型286
12.4.5 神经机器翻译287
12.4.6 历史展望289
12.5 其他应用290
12.5.1 推荐系统290
12.5.2 知识表示、推理和回答292
第3部分 深度学习研究297
第13章 线性因子模型297
13.1 概率PCA和因子分析297
13.2 独立成分分析298
13.3 慢特征分析300
13.4 稀疏编码301
13.5 PCA的流形解释304
第14章 自编码器306
14.1 欠完备自编码器306
14.2 正则自编码器307
14.2.1 稀疏自编码器307
14.2.2 去噪自编码器309
14.2.3 惩罚导数作为正则309
14.3 表示能力、层的大小和深度310
14.4 随机编码器和解码器310
14.5 去噪自编码器详解311
14.5.1 得分估计312
14.5.2 历史展望314
14.6 使用自编码器学习流形314
14.7 收缩自编码器317
14.8 预测稀疏分解319
14.9 自编码器的应用319
第15章 表示学习321
15.1 贪心逐层无监督预训练322
15.1.1 何时以及为何无监督预训练有效有效323
15.2 迁移学习和领域自适应326
15.3 半监督解释因果关系329
15.4 分布式表示332
15.5 得益于深度的指数增益336
15.6 提供发现潜在原因的线索337
第16章 深度学习中的结构化概率模型339
16.1 非结构化建模的挑战339
16.2 使用图描述模型结构342
16.2.1 有向模型342
16.2.2 无向模型344
16.2.3 配分函数345
16.2.4 基于能量的模型346
16.2.5 分离和d-分离347
16.2.6 在有向模型和无向模型中转换350
16.2.7 因子图352
16.3 从图模型中采样353
16.4 结构化建模的优势353
16.5 学习依赖关系354
16.6 推断和近似推断354
16.7 结构化概率模型的深度学习方法355
16.7.1 实例:受限玻尔兹曼机356
第17章 蒙特卡罗方法359
17.1 采样和蒙特卡罗方法359
17.1.1 为什么需要采样359
17.1.2 蒙特卡罗采样的基础359
17.2 重要采样360
17.3 马尔可夫链蒙特卡罗方法362
17.4 Gibbs采样365
17.5 不同的峰值之间的混合挑战365
17.5.1 不同峰值之间通过回火来混合367
17.5.2 深度也许会有助于混合368
第18章 直面配分函数369
18.1 对数似然梯度369
18.2 随机最大似然和对比散度370
18.3 伪似然375
18.4 得分匹配和比率匹配376
18.5 去噪得分匹配378
18.6 噪声对比估计378
18.7 估计配分函数380
18.7.1 退火重要采样382
18.7.2 桥式采样384
第19章 近似推断385
19.1 把推断视作优化问题385
19.2 期望最大化386
19.3 最大后验推断和稀疏编码387
19.4 变分推断和变分学习389
19.4.1 离散型潜变量390
19.4.2 变分法394
19.4.3 连续型潜变量396
19.4.4 学习和推断之间的相互作用397
19.5 学成近似推断397
19.5.1 醒眠算法398
19.5.2 学成推断的其他形式398
第20章 深度生成模型399
20.1 玻尔兹曼机399
20.2 受限玻尔兹曼机400
20.2.1 条件分布401
20.2.2 训练受限玻尔兹曼机402
20.3 深度信念网络402
20.4 深度玻尔兹曼机404
20.4.1 有趣的性质406
20.4.2 DBM均匀场推断406
20.4.3 DBM的参数学习408
20.4.4 逐层预训练408
20.4.5 联合训练深度玻尔兹曼机410
20.5 实值数据上的玻尔兹曼机413
20.5.1 Gaussian-Bernoulli RBM413
20.5.2 条件协方差的无向模型414
20.6 卷积玻尔兹曼机417
20.7 用于结构化或序列输出的玻尔兹曼机418
20.8 其他玻尔兹曼机419
20.9 通过随机操作的反向传播419
20.9.1 通过离散随机操作的反向传播420
20.10 有向生成网络422
20.10.1 sigmoid信念网络422
20.10.2 可微生成器网络423
20.10.3 变分自编码器425
20.10.4 生成式对抗网络427
20.10.5 生成矩匹配网络429
20.10.6 卷积生成网络430
20.10.7 自回归网络430
20.10.8 线性自回归网络430
20.10.9 神经自回归网络431
20.10.10 NADE432
20.11 从自编码器采样433
20.11.1 与任意去噪自编码器相关的马尔可夫链434
20.11.2 夹合与条件采样434
20.11.3 回退训练过程435
20.12 生成随机网络435
20.12.1 判别性GSN436
20.13 其他生成方案436
20.14 评估生成模型437
20.15 结论438
参考文献439
索引486