《马尔可夫决策过程》求取 ⇩

目录1

绪论1

第1篇 马尔可夫决策过程的基本模型11

1 马尔可夫决策过程(MDP)的现状13

§1.1 马尔可夫决策过程的背景13

§1.2 离散时间非平稳MDP14

§1.3 离散时间平稳情形MDP16

§1.4 连续时间MDP22

§1.5 连续时间SMDP24

2 策略类的等价性27

§2.1 基本模型及定义27

§2.2 预备引理及其证明29

§2.3 策略类∏与策略类∏m的等价性31

§2.4 本章结论的注记37

第2篇 离散时间可数状态MDP39

§3.1 引言41

3 平稳MDP的折扣目标41

§3.2 平稳策略优势43

§3.3 存在一个平稳策略是最优的45

§3.4 策略迭代法48

§3.5 逐次逼近法52

§3.6 策略迭代——逐次逼近法55

§3.7 线性规划法57

§3.8 本章结论的注记60

§4.2 平稳最优策略的存在性61

4 平稳MDP的平均目标61

§4.1 引言61

§4.3 策略迭代算法65

§4.4 线性规划算法70

§4.5 特殊情形71

§4.6 数值例子73

§4.7 本章结论的注记76

§5.1 基本模型及定义78

5 非平稳MDP的期望总报酬目标78

§5.2 模型的时齐化79

§5.3 最优马氏策略的存在性82

§5.4 最优策略的结构88

§5.5 本章结论的注记94

6 受约束的非平稳MDP期望总报酬目标95

§6.1 基本模型及定义95

§6.2 目标函数对策略的连续性96

§6.3 约束最优策略的刻画101

§6.4 进一步的结果105

§6.5 本章结论的注记108

7 非平稳MDP的平均目标109

§7.1 基本模型及定义109

§7.2 最优方程的可解性111

§7.3 W-ε-最优马氏策略的存在性113

§7.4 逐次逼近算法122

§7.5 最优策略的结构126

§7.6 ε-最优策略的Bellman最优性原理135

§7.7 平均方差目标144

§7.8 一致最优(G,B)-生成策略的存在性158

§7.9 本章结论的注记168

第3篇 离散时间Borel状态空间非平稳MDP171

8 期望总报酬目标173

§8.1 引言及模型173

§8.2 模型的转化174

§8.3 最大报酬函数的广义可测性177

§8.4 最优马氏策略的存在性186

§8.5 本章结论的注记190

9 受约束的期望总报酬准则191

§9.1 基本模型和假设191

§9.2 随机策略类及最优策略类的紧性193

§9.3 约束最优策略的存在性195

§9.4 本章结论的注记199

10 平均报酬目标200

§10.1 基本模型及定义200

§10.2 最优方程解的存在性201

§10.3 最优马氏策略的存在性204

§10.4 值迭代算法208

§10.5 最优策略的结构211

§10.6 平均方差目标216

§10.7 本章结论的注记220

第4篇 连续时间可数状态MDP221

11 折扣模型223

§11.1 引言223

§11.2 基本假设和定义224

§11.3 折扣目标229

§11.4 最优平稳策略的存在性与策略迭代算法233

§11.5 化连续时间模型为离散时间模型236

§11.6 进一步的结果237

§11.7 最优策略的性质243

§11.8 本章结论的注记248

12 折扣模型与最优Q过程249

§12.1 基本模型及定义249

§12.2 Q(π)过程唯一时的折扣目标250

§12.3 Q(π)-矩阵非保守情形256

§12.4 Q(π)过程不唯一情形与最优Q过程258

§12.5 最优决策过程265

§12.6 本章结论的注记272

13 平均模型274

§13.1 引言274

§13.2 附加假设同预备知识274

§13.3 最优平稳策略的存在性281

§13.4 ε-最优平稳策略285

§13.5 策略迭代法及其收敛性288

§13.6 进一步的结果与值迭代算法292

§13.7 化连续时间模型为离散时间模型297

§13.8 本章结论的注记298

第5篇 连续时间可数状态SMDP299

14 一个新的折扣目标301

§14.1 引言及模型301

§14.2 最优策略的存在性303

§14.3 特殊情形307

§14.4 本章结论的注记310

15 平均目标311

§15.1 基本模型及定义311

§15.2 最优方程的确立313

§15.3 平均期望目标ε-最优策略的存在性316

§15.4 期望平均目标的强最优性322

§15.5 本章结论的注记327

第6篇 MDP的应用329

§16.1 更换问题331

16 MDP的应用例子331

§16.2 更换存贮问题335

§16.3 检查、维修与更换问题340

§16.4 存贮问题341

§16.5 质量控制问题342

§16.6 可靠性问题346

§16.7 随机旅行售货员问题347

§16.8 存贮-生产系统问题348

§16.9 公共汽车、街道小车或步行问题349

§16.10 本章结论的注记355

附录 基本知识357

附录A 随机核357

附录B 多值映射和可测选择理论360

附录C 最小非负解理论363

参考文献365

符号索引382

内容索引385

1998《马尔可夫决策过程》由于是年代较久的资料都绝版了,几乎不可能购买到实物。如果大家为了学习确实需要,可向博主求助其电子版PDF文件(由侯振挺,郭先平著 1998 长沙:湖南科学技术出版社 出版的版本) 。对合法合规的求助,我会当即受理并将下载地址发送给你。