《表2 年运行费用对比:强化学习算法在空调系统运行优化中的应用研究》
接下来关注从运行费用角度定量评价强化学习控制器的运行效果。为了更好地与基准策略作对比,量化强化学习控制器的控制效果,本案例定义了Score指标。计算方法如式(8)所示,式中cost代表不同运行策略下的供热季累积运行费用,Score的值越接近1,则意味着强化学习控制策略越接近最优控制策略。图5为Score指标随运行天数的变化,表2为不同运行策略下年运行费用的对比情况,可以看出在运行初期,强化学习控制器缺乏“运行经验”,运行费用甚至高于使用固定温度控制策略的运行费用。随着强化学习控制器不断探索,“运行经验”的增加,Score值逐步变大,截止第一个供热季结束,Score值为0.55,与固定温度控制策略的运行费用相比降低了8.3%。在第二个供热季,强化学习控制器进入运行阶段,完全利用已有“运行经验”做决策,经计算,第二个供热季结束时,Score值为0.73,与固定温度控制策略的运行费用相比降低了10.8%。
图表编号 | XD00151621300 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.25 |
作者 | 丁志梁、潘毅群、谢建彤、王尉同、黄治钟 |
绘制单位 | 同济大学机械与能源工程学院、同济大学机械与能源工程学院、同济大学机械与能源工程学院、同济大学机械与能源工程学院、同济大学中德工程学院 |
更多格式 | 高清、无水印(增值服务) |