《马尔可夫决策过程》

作者	侯振挺，郭先平著编者
出版	长沙：湖南科学技术出版社
参考页数	386
出版时间	1998（求助前请核对）目录预览
ISBN号	7535722725 — 求助条款
PDF编号	83444088（仅供预览，未存储实际文件）
求助格式	扫描PDF（若分多册发行，每次仅能受理1册）

系统维护中...

目录1

绪论1

第1篇马尔可夫决策过程的基本模型11

1 马尔可夫决策过程（MDP）的现状13

§1.1 马尔可夫决策过程的背景13

§1.2 离散时间非平稳MDP14

§1.3 离散时间平稳情形MDP16

§1.4 连续时间MDP22

§1.5 连续时间SMDP24

2 策略类的等价性27

§2.1 基本模型及定义27

§2.2 预备引理及其证明29

§2.3 策略类∏与策略类∏m的等价性31

§2.4 本章结论的注记37

第2篇离散时间可数状态MDP39

§3.1 引言41

3 平稳MDP的折扣目标41

§3.2 平稳策略优势43

§3.3 存在一个平稳策略是最优的45

§3.4 策略迭代法48

§3.5 逐次逼近法52

§3.6 策略迭代——逐次逼近法55

§3.7 线性规划法57

§3.8 本章结论的注记60

§4.2 平稳最优策略的存在性61

4 平稳MDP的平均目标61

§4.1 引言61

§4.3 策略迭代算法65

§4.4 线性规划算法70

§4.5 特殊情形71

§4.6 数值例子73

§4.7 本章结论的注记76

§5.1 基本模型及定义78

5 非平稳MDP的期望总报酬目标78

§5.2 模型的时齐化79

§5.3 最优马氏策略的存在性82

§5.4 最优策略的结构88

§5.5 本章结论的注记94

6 受约束的非平稳MDP期望总报酬目标95

§6.1 基本模型及定义95

§6.2 目标函数对策略的连续性96

§6.3 约束最优策略的刻画101

§6.4 进一步的结果105

§6.5 本章结论的注记108

7 非平稳MDP的平均目标109

§7.1 基本模型及定义109

§7.2 最优方程的可解性111

§7.3 W-ε-最优马氏策略的存在性113

§7.4 逐次逼近算法122

§7.5 最优策略的结构126

§7.6 ε-最优策略的Bellman最优性原理135

§7.7 平均方差目标144

§7.8 一致最优（G，B）-生成策略的存在性158

§7.9 本章结论的注记168

第3篇离散时间Borel状态空间非平稳MDP171

8 期望总报酬目标173

§8.1 引言及模型173

§8.2 模型的转化174

§8.3 最大报酬函数的广义可测性177

§8.4 最优马氏策略的存在性186

§8.5 本章结论的注记190

9 受约束的期望总报酬准则191

§9.1 基本模型和假设191

§9.2 随机策略类及最优策略类的紧性193

§9.3 约束最优策略的存在性195

§9.4 本章结论的注记199

10 平均报酬目标200

§10.1 基本模型及定义200

§10.2 最优方程解的存在性201

§10.3 最优马氏策略的存在性204

§10.4 值迭代算法208

§10.5 最优策略的结构211

§10.6 平均方差目标216

§10.7 本章结论的注记220

第4篇连续时间可数状态MDP221

11 折扣模型223

§11.1 引言223

§11.2 基本假设和定义224

§11.3 折扣目标229

§11.4 最优平稳策略的存在性与策略迭代算法233

§11.5 化连续时间模型为离散时间模型236

§11.6 进一步的结果237

§11.7 最优策略的性质243

§11.8 本章结论的注记248

12 折扣模型与最优Q过程249

§12.1 基本模型及定义249

§12.2 Q（π）过程唯一时的折扣目标250

§12.3 Q（π）-矩阵非保守情形256

§12.4 Q（π）过程不唯一情形与最优Q过程258

§12.5 最优决策过程265

§12.6 本章结论的注记272

13 平均模型274

§13.1 引言274

§13.2 附加假设同预备知识274

§13.3 最优平稳策略的存在性281

§13.4 ε-最优平稳策略285

§13.5 策略迭代法及其收敛性288

§13.6 进一步的结果与值迭代算法292

§13.7 化连续时间模型为离散时间模型297

§13.8 本章结论的注记298

第5篇连续时间可数状态SMDP299

14 一个新的折扣目标301

§14.1 引言及模型301

§14.2 最优策略的存在性303

§14.3 特殊情形307

§14.4 本章结论的注记310

15 平均目标311

§15.1 基本模型及定义311

§15.2 最优方程的确立313

§15.3 平均期望目标ε-最优策略的存在性316

§15.4 期望平均目标的强最优性322

§15.5 本章结论的注记327

第6篇 MDP的应用329

§16.1 更换问题331

16 MDP的应用例子331

§16.2 更换存贮问题335

§16.3 检查、维修与更换问题340

§16.4 存贮问题341

§16.5 质量控制问题342

§16.6 可靠性问题346

§16.7 随机旅行售货员问题347

§16.8 存贮-生产系统问题348

§16.9 公共汽车、街道小车或步行问题349

§16.10 本章结论的注记355

附录基本知识357

附录A 随机核357

附录B 多值映射和可测选择理论360

附录C 最小非负解理论363

参考文献365

符号索引382

内容索引385

1998《马尔可夫决策过程》由于是年代较久的资料都绝版了，几乎不可能购买到实物。如果大家为了学习确实需要，可向博主求助其电子版PDF文件（由侯振挺，郭先平著 1998 长沙：湖南科学技术出版社出版的版本）。对合法合规的求助，我会当即受理并将下载地址发送给你。

系统维护中...

高度相关资料

: 无穷粒子马尔可夫过程引论; 1989 北京：北京师范大学出版社

: 决策过程; 1991年10月第1版

: 马尔可夫链和随机稳定性; 1999 世界图书出版公司北京公司

: 可数马尔可夫链英文

: 考研数学常见题型解析及模拟试题第3版; 1996 西安：西北工业大学出版社

: 风险决策∶过程、心理与文化; 1998 北京：经济科学出版社

: 齐次可列马尔可夫过程; 1978 北京：科学出版社

: 决策过程; 1988 上海：上海译文出版社

: 可数状态的马尔可夫过程论; 1983 武汉：武汉大学出版社

: 动态规划与马尔柯夫过程; 1963 上海：上海科学技术出版社

: 马尔科夫过程论基础; 1962 北京：科学出版社

: 马尔可夫过程定理与问题; 1988 北京：科学出版社

: 马氏决策浅说; 1986 沈阳：辽宁教育出版社

: 马雅可夫斯基; 1961 上海：上海文艺出版社

: 社会阶层与政治; 1991 北京：经济日报出版社

提示：百度云已更名为百度网盘（百度盘），天翼云盘、微盘下载地址……暂未提供。➥ PDF文字可复制化或转WORD

《马尔可夫决策过程》

高度相关资料

人力资源管理

非线性振动

相关绝版资料

随机翻阅