《表1 分层深度强化学习算法汇总》

《表1 分层深度强化学习算法汇总》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《分层强化学习综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

上述分层强化算法都有其针对性优化的方面,各自具有其优缺点,其对比情况如表1。子策略共享的分层方法相对更易实现,其所依赖更多的是人工进行子策略的设计,当设计的子策略越好,其训练出来的效果也就越好,同时其收敛速度也会更快,但其也会因为人工设计的缺陷,可能产生无法良好解决任务的情况。无监督分层方法更多的优化体现在其对环境的探索上,其对于探索新奇点产生的奖励更高,这在复杂环境下能够更好地使其产生出更多的动作,同时其不会受限于单一环境,在新环境下也能够不断进行探索发现,训练结果能够不断进行优化,但也是因为会对更多地方不断探索,所以需要更多的训练时间。多层结构分层方法主要对分层的稳定性方面有了更好的体现,分层结构本身就具有不稳定性,同时层数越多结构的稳定性也就更差,训练结果也更不容易收敛,所以多层结构对稳定性的解决有了很好的表现,但是多层的分层结构具体对整体性能的优化体现的并不明显,这点仍有研究的空间。同时在2.3节中介绍了两种自动分层算法HI-MAT和HI-CS,自动分层算法能够根据动作和状态变化,来进行子任务的识别,并通过聚类或者DBN来实现自动的分层,自动分层的结构更为紧凑,同时减少了人工,使得智能体能够具有更好的自主学习能力,其整体效果相较基础的Q-learning和MAXQ-Q方法有更好的表现,但是整体环境较为简单,所以仍有较大的进步空间。