《表1:第一视角的强化学习》

《表1:第一视角的强化学习》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《第一视角的强化学习》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

以此类推,如果发现当前空间通往下一空间的交界处标记有“值得往前走”,那么还可以在之前空间通往当前空间的交界处留下“可以试着走”的标记。可是,为什么不全部标记“大胆往前走”呢?因为在一个复杂的迷宫里,通往宝藏的路径可能不止一条,虽然说在某次探险中标记了一条可以通往宝藏的道路,但有可能这一条完全靠蒙的道路弯弯绕绕,兜了一个不必要的大圈子才到达目的地,所以,只要不是紧挨着宝藏,标记就不能写得很绝对。通过上述这种方法,既可以把远处的状况信息,依靠临近空间的标记逐渐扩散开来,又能提供给探险的玩家多种行进的可能性,这正是Q-learning强化学习的重要思路。那么,这种思路是如何真正落实到人工智能算法的实现中去的?对这个问题的解答,便成为开展教学的主要内容。