图书介绍

强化学习原理及其应用PDF|Epub|txt|kindle电子书版本网盘下载

强化学习原理及其应用
  • 王雪松,朱美强,程玉虎著 著
  • 出版社: 北京:科学出版社
  • ISBN:9787030406408
  • 出版时间:2014
  • 标注页数:253页
  • 文件大小:44MB
  • 文件页数:269页
  • 主题词:学习方法-研究

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

强化学习原理及其应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 强化学习概述1

1.1 强化学习模型及其基本要素2

1.1.1 强化学习模型2

1.1.2 强化学习基本要素3

1.2 强化学习的发展历史5

1.2.1 试错学习5

1.2.2 动态规划与最优控制6

1.2.3 时间差分学习7

1.3 强化学习研究概述7

1.3.1 分层强化学习研究现状8

1.3.2 近似强化学习研究现状10

1.3.3 启发式回报函数设计研究现状15

1.3.4 探索和利用平衡研究现状16

1.3.5 基于谱图理论的强化学习研究现状17

1.4 强化学习方法的应用19

1.4.1 自适应优化控制中的应用19

1.4.2 调度管理中的应用22

1.4.3 人工智能问题求解中的应用22

1.5 本书主要内容及安排23

参考文献25

第2章 强化学习基础理论41

2.1 马尔科夫决策过程概述41

2.1.1 马尔科夫决策过程41

2.1.2 策略和值函数42

2.2 基于模型的动态规划方法44

2.2.1 线性规划45

2.2.2 策略迭代45

2.2.3 值迭代46

2.2.4 广义策略迭代47

2.3 模型未知的强化学习48

2.3.1 强化学习基础48

2.3.2 蒙特卡罗法49

2.3.3 时间差分TD法54

2.3.4 Q学习与SARSA学习56

2.3.5 Dyna学习框架57

2.3.6 直接策略方法59

2.3.7 Actor-Critic学习60

2.4 近似强化学习61

2.4.1 带值函数逼近的TD学习61

2.4.2 近似值迭代63

2.4.3 近似策略迭代65

2.4.4 最小二乘策略迭代66

2.5 本章小结68

参考文献68

第3章 基于支持向量机的强化学习71

3.1 支持向量机原理71

3.1.1 机器学习72

3.1.2 核学习73

3.1.3 SVM的思想74

3.1.4 SVM的重要概念74

3.2 基于半参数支持向量机的强化学习75

3.2.1 基于半参数回归模型的Q学习结构76

3.2.2 半参数回归模型的学习78

3.2.3 仿真研究79

3.3 基于概率型支持向量机的强化学习82

3.3.1 基于概率型支持向量机分类机的Q学习82

3.3.2 概率型支持向量分类机83

3.3.3 仿真研究85

3.4 本章小结88

参考文献88

第4章 基于状态-动作图测地高斯基的策略迭代强化学习90

4.1 强化学习中的基函数选择90

4.2 基于状态-动作图测地高斯基的策略迭代91

4.2.1 MDP的状态-动作空间图92

4.2.2 状态-动作图上测地高斯核93

4.2.3 基于状态-动作图测地高斯基的动作值函数逼近94

4.3 算法步骤95

4.4 仿真研究96

4.5 本章小结104

参考文献104

第5章 基于抽象状态的贝叶斯强化学习电梯群组调度106

5.1 电梯群组调度强化学习模型107

5.2 基于抽象状态的贝叶斯强化学习电梯群组调度108

5.2.1 状态空间抽象109

5.2.2 强化学习系统的回报函数110

5.2.3 贝叶斯网推断110

5.2.4 状态-动作值函数的神经网络逼近111

5.2.5 动作选择策略112

5.3 仿真研究112

5.4 本章小结115

参考文献115

第6章 基于增量最小二乘时间差分的Actor-Critic学习117

6.1 策略梯度理论118

6.2 基于常规梯度的增量式Actor-Critic学习120

6.3 基于iLSTD(λ)的Actor-Critic学习121

6.4 仿真研究123

6.5 本章小结126

参考文献126

第7章 融合经验数据的Actor-Critic强化学习128

7.1 增量式Actor-Critic学习算法的数据有效性改进128

7.1.1 基于RLSTD(λ)或iLSTD(λ)的增量式Actor-Critic学习130

7.1.2 算法步骤132

7.1.3 仿真研究133

7.2 基于自适应重要采样的Actor-Critic学习140

7.2.1 基于最小二乘时间差分的Actor-Critic强化学习141

7.2.2 基于重要采样的估计143

7.2.3 基于自适应重要采样的估计145

7.2.4 算法步骤147

7.2.5 仿真研究147

7.3 本章小结150

参考文献151

第8章 基于资格迹的折扣回报型增量自然Actor-Critic学习153

8.1 自然梯度154

8.2 自然策略梯度的估计方法155

8.2.1 基于Fisher信息矩阵的自然策略梯度155

8.2.2 基于兼容函数逼近器的自然策略梯度156

8.2.3 自然策略梯度的仿真157

8.2.4 自然策略梯度的特性158

8.3 基于资格迹的折扣回报型增量自然Actor-Critic学习158

8.4 仿真研究161

8.5 本章小结164

参考文献165

第9章 基于参数探索的EM策略搜索166

9.1 策略搜索强化学习方法分析166

9.2 期望最大化策略搜索强化学习167

9.3 基于参数探索的EM策略搜索学习169

9.4 算法步骤171

9.5 仿真研究172

9.5.1 小球平衡问题172

9.5.2 倒立摆平衡问题175

9.6 本章小结177

参考文献178

第10章 基于谱图理论的强化学习基础180

10.1 谱图理论与谱图分割180

10.1.1 谱图理论与谱方法180

10.1.2 谱图分割和谱聚类181

10.2 基于谱图理论的流形和距离度量学习183

10.2.1 流形学习概述183

10.2.2 基于流形学习的度量学习183

10.3 基于拉普拉斯特征映射法的强化学习185

10.3.1 拉普拉斯特征映射法基础185

10.3.2 基于拉普拉斯特征映射的强化学习186

10.4 基于拉普拉斯特征映射的强化学习分析190

10.5 本章小结191

参考文献191

第11章 基于拉普拉斯特征映射的启发式策略选择194

11.1 探索和利用平衡问题概述194

11.2 启发式策略选择原理195

11.3 基于拉普拉斯特征映射的启发式策略选择196

11.3.1 基本思想196

11.3.2 基于拉普拉斯特征映射的启发式Q学习197

11.4 算法步骤、计算复杂度和适用范围202

11.4.1 算法主要步骤202

11.4.2 计算复杂度202

11.4.3 适用范围203

11.5 仿真研究203

11.5.1 5房间格子世界203

11.5.2 对称4房间格子世界205

11.6 本章小结206

参考文献206

第12章 基于拉普拉斯特征映射的Dyna规划208

12.1 强化学习在移动机器人自主导航中的应用研究概述208

12.2 强化学习在井下救援机器人导航中的应用研究209

12.3 基于拉普拉斯特征映射的Dyna_Q算法210

12.3.1 Dyna_Q的基本思想210

12.3.2 基于谱图理论的优先级机制211

12.3.3 算法步骤212

12.3.4 计算复杂度分析和适用范围212

12.4 仿真结果及分析212

12.4.1 5房间格子地图213

12.4.2 对称4房间格子地图213

12.4.3 9房间格子地图214

12.5 本章小结215

参考文献215

第13章 基于谱方法的强化学习迁移研究217

13.1 基于谱图理论的强化学习迁移217

13.1.1 强化学习迁移概述217

13.1.2 基于谱图理论的强化学习迁移分析219

13.2 基于谱图理论的Option自动生成研究220

13.2.1 Option原理220

13.2.2 基于谱图分割的Option自动生成算法概述221

13.2.3 虚拟值函数法222

13.3 基于谱图理论的强化学习混合迁移方法226

13.3.1 基函数的线性插值226

13.3.2 迁移基函数的逼近能力227

13.3.3 基函数与子任务策略的混合迁移230

13.4 算法步骤和适用范围231

13.4.1 算法步骤231

13.4.2 适用范围232

13.5 仿真实验与分析232

13.5.1 地图不变迁移233

13.5.2 地图比例放大迁移233

13.5.3 实验结果统计分析235

13.6 本章小结237

参考文献237

附录240

热门推荐