《表1:第一视角的强化学习》
以此类推,如果发现当前空间通往下一空间的交界处标记有“值得往前走”,那么还可以在之前空间通往当前空间的交界处留下“可以试着走”的标记。可是,为什么不全部标记“大胆往前走”呢?因为在一个复杂的迷宫里,通往宝藏的路径可能不止一条,虽然说在某次探险中标记了一条可以通往宝藏的道路,但有可能这一条完全靠蒙的道路弯弯绕绕,兜了一个不必要的大圈子才到达目的地,所以,只要不是紧挨着宝藏,标记就不能写得很绝对。通过上述这种方法,既可以把远处的状况信息,依靠临近空间的标记逐渐扩散开来,又能提供给探险的玩家多种行进的可能性,这正是Q-learning强化学习的重要思路。那么,这种思路是如何真正落实到人工智能算法的实现中去的?对这个问题的解答,便成为开展教学的主要内容。
图表编号 | XD0071188700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 陈凯 |
绘制单位 | 上海市位育中学 |
更多格式 | 高清、无水印(增值服务) |