《表1 MDP模型的构成元素》
马尔可夫决策过程描述了一个序贯决策过程,由Bellman[13]提出,并由Howard[14]进行完善,成为一类重要的随机序贯决策模型。该模型最早被应用于最优控制领域,随后为增强学习的形成起到了关键作用,成为其理论基础。其中,MDP是由马尔科夫奖赏过程(Markov reward process,MRP)附加以决策发展而来,一般用5元组表示,如表1所示。
图表编号 | XD0067064800 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 高振海、孙天骏、何磊 |
绘制单位 | 吉林大学汽车仿真与控制国家重点实验室、吉林大学汽车仿真与控制国家重点实验室、吉林大学汽车仿真与控制国家重点实验室 |
更多格式 | 高清、无水印(增值服务) |