《表1 回合数对比:优化深度确定性策略梯度算法》

《表1 回合数对比:优化深度确定性策略梯度算法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《优化深度确定性策略梯度算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从表1可得,本文提出的DDPG-OSPC算法与DDPG算法的相比,在达到相同目标时,节约了10%的回合数。DDPG-PC算法与DDPG算法的对比和DDPG-OSPC算法与DDPG-OS算法的对比,都节约了5%的回合数,说明了精确评价算法的有效性。DDPG算法与DDPG-OS算法和DDPG-PC算法与DDPG-OSPC算法的对比则说明采样的随机性会对算法的收敛速度产生影响,优化采样的算法加快了DDPG算法和精确评价算法的收敛速度。而DDPG-TD算法的实验数据说明仅基于TD-error算法的泛化性能较差,而本文提出的DDPG-OSPC算法对于DDPG算法的提升是明显的。