马尔可夫决策过程(Markov Decision Process, MDP)是
序贯决策(sequential decision)的数学模型,用于在系统状态具有
马尔可夫性质的环境中模拟
智能体可实现的随机性策略与回报。MDP的得名来自于俄国数学家
安德雷·马尔可夫(Андрей Андреевич Марков),以纪念其为
马尔可夫链所做的研究。
MDP基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励。在MDP的模拟中,智能体会感知当前的系统状态,按策略对环境实施动作,从而改变环境的状态并得到奖励,奖励随时间的积累被称为回报。
MDP的理论基础是
马尔可夫链,因此也被视为考虑了动作的
马尔可夫模型。在离散时间上建立的MDP被称为“离散时间马尔可夫决策过程(descrete-time MDP)”,反之则被称为“连续时间马尔可夫决策过程(continuous-time MDP)”。此外MDP存在一些变体,包括
部分可观察马尔可夫决策过程、约束马尔可夫决策过程和模糊马尔可夫决策过程。
在应用方面,MDP被用于
机器学习中
强化学习(reinforcement learning)问题的建模。通过使用
动态规划、
随机采样等方法,MDP可以求解使回报最大化的智能体策略,并在
自动控制、
推荐系统等主题中得到应用。
马尔可夫决策过程(Markov Decision Process, MDP)是<a href="./?mention=序贯决策">序贯决策</a>(sequential decision)的数学模型,用于在系统状态具有<a href="./?mention=马尔可夫性质">马尔可夫性质</a>的环境中模拟<a href="./?mention=智能体">智能体</a>可实现的随机性策略与回报。MDP的得名来自于俄国数学家<a href="./?mention=安德雷·马尔可夫">安德雷·马尔可夫</a>(Андрей Андреевич Марков),以纪念其为<a href="./?mention=马尔可夫链">马尔可夫链</a>所做的研究。<br/>MDP基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励。在MDP的模拟中,智能体会感知当前的系统状态,按策略对环境实施动作,从而改变环境的状态并得到奖励,奖励随时间的积累被称为回报。<br/>MDP的理论基础是<a href="./?mention=马尔可夫链">马尔可夫链</a>,因此也被视为考虑了动作的<a href="./?mention=马尔可夫模型">马尔可夫模型</a>。在离散时间上建立的MDP被称为“离散时间马尔可夫决策过程(descrete-time MDP)”,反之则被称为“连续时间马尔可夫决策过程(continuous-time MDP)”。此外MDP存在一些变体,包括<a href="./?mention=部分可观察马尔可夫决策过程">部分可观察马尔可夫决策过程</a>、约束马尔可夫决策过程和模糊马尔可夫决策过程。<br/>在应用方面,MDP被用于<a href="./?mention=机器学习">机器学习</a>中<a href="./?mention=强化学习">强化学习</a>(reinforcement learning)问题的建模。通过使用<a href="./?mention=动态规划">动态规划</a>、<a href="./?mention=随机采样">随机采样</a>等方法,MDP可以求解使回报最大化的智能体策略,并在<a href="./?mention=自动控制">自动控制</a>、<a href="./?mention=推荐系统">推荐系统</a>等主题中得到应用。