《表1 各方法调度结果:基于强化学习的时间触发通信调度方法》
注:*表示使用模仿学习进行预训练。
通过实验,可以得到如下结果,其中表1为各方法的计算时间与平均延迟,图3和图4分别为预训练的损失函数与无预训练的强化学习延迟优化情况。可以看出,由于强化学习和经过由模仿学习预训练的强化学习有训练的过程,收敛后效果优于直接使用树搜索所得的结果。
图表编号 | XD0083813500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 李浩若、何锋、郑重、李二帅、熊华钢 |
绘制单位 | 北京航空航天大学电子信息工程学院、北京航空航天大学电子信息工程学院、北京航空航天大学电子信息工程学院、北京航空航天大学电子信息工程学院、北京航空航天大学电子信息工程学院 |
更多格式 | 高清、无水印(增值服务) |