《表3 Pendulum-v0任务中实验数据统计》
图5展示了训练过程中Actor网络的动态延迟次数。由图5可见,在训练前期,由于智能体与环境的交互次数较少,值函数的价值估计迭代尚不充分,相应的神经网络的参数尚不成熟,则前期次优的Critic网络价值导致Actor网络延迟步长主要集中在5。
图表编号 | XD00146085000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.01 |
作者 | 康朝海、孙超、荣垂霆、刘鹏云 |
绘制单位 | 东北石油大学电气信息工程学院、东北石油大学电气信息工程学院、东北石油大学电气信息工程学院、东北石油大学电气信息工程学院 |
更多格式 | 高清、无水印(增值服务) |