《表3 基于期望回放算法收敛后动作价值的误差》
表2和表3分别给出了基于均匀回放的Q学习算法和基于期望回放算法收敛到最优策略后的平均动作价值与真实动作价值的误差统计.
图表编号 | XD00139181000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.30 |
作者 | 张峰、钱辉、董春茹、花强 |
绘制单位 | 河北省机器学习与计算智能重点实验室河北大学数学与信息科学学院、河北省机器学习与计算智能重点实验室河北大学数学与信息科学学院、河北省机器学习与计算智能重点实验室河北大学数学与信息科学学院、河北省机器学习与计算智能重点实验室河北大学数学与信息科学学院 |
更多格式 | 高清、无水印(增值服务) |