《深度强化学习 学术前沿与实战应用=DEEP REINFORCEMENT LEARNING RESEARCH FRONTIERS AND PRACTICAL APPLICATIONS》求取 ⇩

第一篇深度强化学习2

第1章深度强化学习基础2

1.1强化学习2

1.1.1 强化学习的发展历史2

1.1.2 强化学习简介4

1.1.3 深度强化学习简介6

1.2马尔可夫属性和决策过程9

1.2.1 马尔可夫属性9

1.2.2 马尔可夫决策过程11

1.3强化学习核心概念12

1.3.1 值函数12

1.3.2 动态规划14

1.3.3 时间(序)差分15

1.3.4 策略梯度16

1.3.5 actor-critic方法17

1.4Q-learning18

1.4.1 Q-learning简介18

1.4.2 算法19

1.4.3 相关变量及影响20

1.4.4 实现方法21

第2章深度强化学习算法22

2.1基于值的深度强化学习算法22

2.1.1 深度Q网络22

2.1.2 深度双Q网络27

2.1.3 竞争网络架构31

2.1.4 平均值DQN33

2.1.5 多DQN变种结合体:Rainbow37

2.1.6 基于动作排除的DQN42

2.2基于策略的深度强化学习算法46

2.2.1 循环确定性策略梯度46

2.2.2 深度确定性策略梯度55

2.2.3 信赖域策略优化62

2.2.4 近端策略优化68

2.3基于模型的深度强化学习算法73

2.3.1 基于模型加速的连续深度Q-learning73

2.3.2 范例模型探索80

2.3.3 基于模型集成的信赖域策略优化88

2.3.4 时间差分模型95

2.4基于分层的深度强化学习算法102

2.4.1 分层深度强化学习102

2.4.2 基于封建网络的分层强化学习109

2.4.3 基于随机神经网络的分层强化学习116

第3章分布式深度强化学习123

3.1分布式系统123

3.1.1 分布式系统简介123

3.1.2 分布式系统的发展历史124

3.1.3 架构演进125

3.1.4 主流分布式系统框架128

3.2分布式深度强化学习算法129

3.2.1 分布式近端策略优化129

3.2.2 分布式深度确定性策略梯度138

3.3分布式深度强化学习框架145

3.3.1 重要性加权Actor-Learner架构145

3.3.2 分布式优先经验复用池153

第二篇多智能体深度强化学习162

第4章多智能体深度强化学习基础162

4.1多智能体强化学习162

4.1.1 多智能体强化学习发展历史162

4.1.2 多智能体强化学习简介164

4.1.3 优势和挑战166

4.2部分可见马尔可夫决策过程166

4.2.1 POMDP模型166

4.2.2 POMDP相关研究169

4.2.3 POMDP应用领域170

第5章多智能体深度强化学习算法171

5.1基于值函数的多智能体深度强化学习171

5.1.1 基于DQN的多智能体网络171

5.1.2 增强智能体间学习174

5.1.3 协同多智能体学习的价值分解网络178

5.1.4 多智能体深度强化学习的稳定经验复用池182

5.1.5 单调值函数分解187

5.1.6 深度强化学习中的对立智能体建模190

5.1.7 平均场多智能体强化学习193

5.2基于策略的多智能体深度强化学习197

5.2.1 基于自身策略的其他智能体行为预测197

5.2.2 双重平均方案201

5.2.3 多智能体深度强化学习的统一博弈论方法208

5.3基于AC框架的多智能体深度强化学习212

5.3.1 多智能体深度确定性策略梯度212

5.3.2 多智能体集中规划的价值函数策略梯度220

5.3.3 多智能体系统的策略表示学习227

5.3.4 部分可观察环境下的多智能体策略优化231

5.3.5 基于联网智能体的完全去中心化MARL236

第三篇多任务深度强化学习244

第6章多任务深度强化学习基础244

6.1简介244

6.1.1 理论概述244

6.1.2 面临的挑战247

6.2 策略蒸馏法248

第7章多任务深度强化学习算法253

7.1无监督强化与辅助学习253

7.1.1 算法介绍253

7.1.2 算法分析255

7.1.3 使用场景与优势分析261

7.2使用渐进式神经网络解决任务的复杂序列262

7.2.1 算法介绍262

7.2.2 算法分析262

7.2.3 使用场景与优势分析266

7.3基于单智能体的多任务共享模型267

7.3.1 算法介绍267

7.3.2 算法分析268

7.3.3 使用场景与优势分析272

7.4使用PopArt归一化多任务更新幅度273

7.4.1 算法介绍273

7.4.2 算法分析274

7.4.3 使用场景与优势分析276

第四篇深度强化学习的应用278

第8章游戏278

8.1Gym Retro游戏平台278

8.1.1 平台简介278

8.1.2 安装Gym Retro平台281

8.1.3 安装Retro UI282

8.1.4 Gym Retro主要函数说明283

8.2相关应用285

8.2.1 Pong游戏285

8.2.2 CartPole291

8.2.3 Flappy Bird298

8.2.4 Gradius302

第9章机器人控制312

9.1机器人导航312

9.1.1 无地图导航312

9.1.2 社会感知机器人导航316

9.2 路径规划321

9.3 机器人视觉324

第10章计算机视觉327

10.1图像327

10.1.1 图像字幕327

10.1.2 图像恢复332

10.2视频337

10.2.1 视频字幕337

10.2.2 视频快进345

10.2.3 视觉跟踪348

第11章自然语言处理354

11.1与知识库交互的多轮对话智能体354

11.1.1 概率KB查找355

11.1.2 端到端KB-InfoBot356

11.1.3 总结359

11.2鲁棒远程监督关系提取359

11.2.1 问题表述360

11.2.2 使用基于策略的智能体重新分配训练数据集363

11.2.3 总结363

11.3非成对情感-情感翻译363

11.3.1 问题表述363

11.3.2 训练算法366

11.3.3 总结367

缩写参照表368

常用词中英文对照371

参考文献374

2020《深度强化学习 学术前沿与实战应用=DEEP REINFORCEMENT LEARNING RESEARCH FRONTIERS AND PRACTICAL APPLICATIONS》由于是年代较久的资料都绝版了,几乎不可能购买到实物。如果大家为了学习确实需要,可向博主求助其电子版PDF文件。对合法合规的求助,我会当即受理并将下载地址发送给你。