《表1 Cart Pole任务成功次数统计表》
对比算法选择常规的随机梯度下降法(SGD with Re LU)和小批量梯度下降法(MBGD with Re LU)。为了尽可能获得有效数据,每种算法实验4次,并且实验过程中保持其他参数不变。设置episode为3 000,每100个episode记为一次训练,取其平均奖励值作为训练结果,则三种算法的最终任务完成效果如图6所示,统计结果见表1。其中,图6为三种算法在4次实验中的训练平均得分分布,表1为训练成功次数统计。
图表编号 | XD00150180200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.09.15 |
作者 | 司彦娜、普杰信、臧绍飞 |
绘制单位 | 河南科技大学信息工程学院、河南科技大学信息工程学院、河南科技大学信息工程学院 |
更多格式 | 高清、无水印(增值服务) |