《表3 Pendulum-v0任务中实验数据统计》

《表3 Pendulum-v0任务中实验数据统计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于动态延迟策略更新的TD3算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

图5展示了训练过程中Actor网络的动态延迟次数。由图5可见,在训练前期,由于智能体与环境的交互次数较少,值函数的价值估计迭代尚不充分,相应的神经网络的参数尚不成熟,则前期次优的Critic网络价值导致Actor网络延迟步长主要集中在5。