《表1 MDP模型的构成元素》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《汽车纵向自动驾驶的因果推理型决策》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

马尔可夫决策过程描述了一个序贯决策过程，由Bellman[13]提出，并由Howard[14]进行完善，成为一类重要的随机序贯决策模型。该模型最早被应用于最优控制领域，随后为增强学习的形成起到了关键作用，成为其理论基础。其中，MDP是由马尔科夫奖赏过程（Markov reward process，MRP）附加以决策发展而来，一般用5元组表示，如表1所示。

图表编号	XD0067064800 严禁用于非法目的
绘制时间	2019.09.01
作者	高振海、孙天骏、何磊
绘制单位	吉林大学汽车仿真与控制国家重点实验室、吉林大学汽车仿真与控制国家重点实验室、吉林大学汽车仿真与控制国家重点实验室
更多格式	高清、无水印（增值服务）