《表1 回合数对比:优化深度确定性策略梯度算法》
从表1可得,本文提出的DDPG-OSPC算法与DDPG算法的相比,在达到相同目标时,节约了10%的回合数。DDPG-PC算法与DDPG算法的对比和DDPG-OSPC算法与DDPG-OS算法的对比,都节约了5%的回合数,说明了精确评价算法的有效性。DDPG算法与DDPG-OS算法和DDPG-PC算法与DDPG-OSPC算法的对比则说明采样的随机性会对算法的收敛速度产生影响,优化采样的算法加快了DDPG算法和精确评价算法的收敛速度。而DDPG-TD算法的实验数据说明仅基于TD-error算法的泛化性能较差,而本文提出的DDPG-OSPC算法对于DDPG算法的提升是明显的。
图表编号 | XD0035455400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.01 |
作者 | 柯丰恺、周唯倜、赵大兴 |
绘制单位 | 湖北工业大学机械工程学院、湖北工业大学机械工程学院、湖北工业大学机械工程学院 |
更多格式 | 高清、无水印(增值服务) |