《表2 策略网络:基于强化学习的苏拉卡尔塔博弈算法》
神经网络为6层卷积残差网络,根据策略网络(见表2)和价值网络(见表3)分为2个部分。策略网络为36*36的输出,表示所有可行的移动。价值网络为1的神经元。
图表编号 | XD00149961600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.01 |
作者 | 王仁泉、丁濛、李淑琴、石露颖、戚译中、刘朔言 |
绘制单位 | 北京信息科技大学计算机学院、北京信息科技大学计算机学院、北京信息科技大学计算机学院、北京信息科技大学计算机学院、北京信息科技大学计算机学院、北京信息科技大学计算机学院 |
更多格式 | 高清、无水印(增值服务) |