《表1 Cart Pole任务成功次数统计表》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于残差梯度法的神经网络Q学习算法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

对比算法选择常规的随机梯度下降法（SGD with Re LU）和小批量梯度下降法（MBGD with Re LU）。为了尽可能获得有效数据，每种算法实验4次，并且实验过程中保持其他参数不变。设置episode为3 000，每100个episode记为一次训练，取其平均奖励值作为训练结果，则三种算法的最终任务完成效果如图6所示，统计结果见表1。其中，图6为三种算法在4次实验中的训练平均得分分布，表1为训练成功次数统计。

图表编号	XD00150180200 严禁用于非法目的
绘制时间	2020.09.15
作者	司彦娜、普杰信、臧绍飞
绘制单位	河南科技大学信息工程学院、河南科技大学信息工程学院、河南科技大学信息工程学院
更多格式	高清、无水印（增值服务）