《表1 MDP模型的构成元素》

《表1 MDP模型的构成元素》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《汽车纵向自动驾驶的因果推理型决策》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

马尔可夫决策过程描述了一个序贯决策过程,由Bellman[13]提出,并由Howard[14]进行完善,成为一类重要的随机序贯决策模型。该模型最早被应用于最优控制领域,随后为增强学习的形成起到了关键作用,成为其理论基础。其中,MDP是由马尔科夫奖赏过程(Markov reward process,MRP)附加以决策发展而来,一般用5元组表示,如表1所示。