《表1 分层深度强化学习算法汇总》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《分层强化学习综述》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

上述分层强化算法都有其针对性优化的方面，各自具有其优缺点，其对比情况如表1。子策略共享的分层方法相对更易实现，其所依赖更多的是人工进行子策略的设计，当设计的子策略越好，其训练出来的效果也就越好，同时其收敛速度也会更快，但其也会因为人工设计的缺陷，可能产生无法良好解决任务的情况。无监督分层方法更多的优化体现在其对环境的探索上，其对于探索新奇点产生的奖励更高，这在复杂环境下能够更好地使其产生出更多的动作，同时其不会受限于单一环境，在新环境下也能够不断进行探索发现，训练结果能够不断进行优化，但也是因为会对更多地方不断探索，所以需要更多的训练时间。多层结构分层方法主要对分层的稳定性方面有了更好的体现，分层结构本身就具有不稳定性，同时层数越多结构的稳定性也就更差，训练结果也更不容易收敛，所以多层结构对稳定性的解决有了很好的表现，但是多层的分层结构具体对整体性能的优化体现的并不明显，这点仍有研究的空间。同时在2.3节中介绍了两种自动分层算法HI-MAT和HI-CS，自动分层算法能够根据动作和状态变化，来进行子任务的识别，并通过聚类或者DBN来实现自动的分层，自动分层的结构更为紧凑，同时减少了人工，使得智能体能够具有更好的自主学习能力，其整体效果相较基础的Q-learning和MAXQ-Q方法有更好的表现，但是整体环境较为简单，所以仍有较大的进步空间。

图表编号	XD00201504600 严禁用于非法目的
绘制时间	2021.02.01
作者	赖俊、魏竞毅、陈希亮
绘制单位	陆军工程大学指挥控制工程学院、陆军工程大学指挥控制工程学院、陆军工程大学指挥控制工程学院
更多格式	高清、无水印（增值服务）