《表1 不同算法的回报对比表》

《表1 不同算法的回报对比表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于多线程并行强化学习的建筑节能方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

如表1所示,虽然在实验收敛初期第0步、第60 000步和第255 000步时,Q-Learning算法的回报值分别比MPRL算法的高68、162和37,但在第130 000步和第645 000步,MPRL算法保持稳定收敛,Q-Learning算法的回报值曲线却出现较大波动。从长期来看,基于并行强化学习算法的收敛性和稳定性表现了更好的性能。