《表2 发现奖励所需的周期数》

《表2 发现奖励所需的周期数》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《解决深度探索问题的贝叶斯深度强化学习算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

图3是当格子世界的规模为20×20时,算法的性能曲线。可以假设格子世界的规模为N×N,并分析算法探索效率和N之间的关系。和第4章一样,用算法第一次发现奖励所需的周期数作为探索效率的衡量指标,通过实验得到了6个数据样本,显示在表2中,其中l表示算法第一次发现奖励所需的周期数量。为了表示出两者之间的关系,用多项式回归来拟合这6个点,表示如下: