《表1 分层深度强化学习算法汇总》
上述分层强化算法都有其针对性优化的方面,各自具有其优缺点,其对比情况如表1。子策略共享的分层方法相对更易实现,其所依赖更多的是人工进行子策略的设计,当设计的子策略越好,其训练出来的效果也就越好,同时其收敛速度也会更快,但其也会因为人工设计的缺陷,可能产生无法良好解决任务的情况。无监督分层方法更多的优化体现在其对环境的探索上,其对于探索新奇点产生的奖励更高,这在复杂环境下能够更好地使其产生出更多的动作,同时其不会受限于单一环境,在新环境下也能够不断进行探索发现,训练结果能够不断进行优化,但也是因为会对更多地方不断探索,所以需要更多的训练时间。多层结构分层方法主要对分层的稳定性方面有了更好的体现,分层结构本身就具有不稳定性,同时层数越多结构的稳定性也就更差,训练结果也更不容易收敛,所以多层结构对稳定性的解决有了很好的表现,但是多层的分层结构具体对整体性能的优化体现的并不明显,这点仍有研究的空间。同时在2.3节中介绍了两种自动分层算法HI-MAT和HI-CS,自动分层算法能够根据动作和状态变化,来进行子任务的识别,并通过聚类或者DBN来实现自动的分层,自动分层的结构更为紧凑,同时减少了人工,使得智能体能够具有更好的自主学习能力,其整体效果相较基础的Q-learning和MAXQ-Q方法有更好的表现,但是整体环境较为简单,所以仍有较大的进步空间。
图表编号 | XD00201504600 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.01 |
作者 | 赖俊、魏竞毅、陈希亮 |
绘制单位 | 陆军工程大学指挥控制工程学院、陆军工程大学指挥控制工程学院、陆军工程大学指挥控制工程学院 |
更多格式 | 高清、无水印(增值服务) |