《表1 改进Q-learning伪代码算法》
依据一次函数动态模拟参数ε变化,结合全局奖励回报rg和路径奖励回报re两种奖励的总奖励rtotal,改进Q-learning的伪代码算法如表1所示.
图表编号 | XD00141252100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.01 |
作者 | 简琤峰、林崇、张立军、张美玉 |
绘制单位 | 浙江工业大学计算机学院数字媒体技术研究所、浙江工业大学计算机学院数字媒体技术研究所、浙江工业大学计算机学院数字媒体技术研究所、浙江工业大学计算机学院数字媒体技术研究所 |
更多格式 | 高清、无水印(增值服务) |