《表3 Pendulum-v0任务中实验数据统计》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于动态延迟策略更新的TD3算法》

图5展示了训练过程中Actor网络的动态延迟次数。由图5可见，在训练前期，由于智能体与环境的交互次数较少，值函数的价值估计迭代尚不充分，相应的神经网络的参数尚不成熟，则前期次优的Critic网络价值导致Actor网络延迟步长主要集中在5。

图表编号	XD00146085000 严禁用于非法目的
绘制时间	2020.07.01
作者	康朝海、孙超、荣垂霆、刘鹏云
绘制单位	东北石油大学电气信息工程学院、东北石油大学电气信息工程学院、东北石油大学电气信息工程学院、东北石油大学电气信息工程学院
更多格式	高清、无水印（增值服务）