《表3 平均Q值和标准差:基于动态融合目标的深度强化学习算法研究》

《表3 平均Q值和标准差:基于动态融合目标的深度强化学习算法研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于动态融合目标的深度强化学习算法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表2记录了在CartPole-v0问题上三种算法收敛后的平均得分和标准差,定量地分析了图3实验结果,DTDQN算法相比DQN和DSN算法而言,得分上提高了47.2%、16.8%,在稳定性上,标准差减小了55.2%、60.9%。表3记录了在CartPole-v0问题上三种算法收敛后的平均Q值和标准差,定量地分析了图4实验结果,DTDQN算法相比DQN显著减小了Q值的过估计,相对DQN和DSN而言,在收敛后的Q值的稳定性上也得到了提升。