强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是
机器学习的
范式和
方法论之一,用于描述和解决
智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习的常见模型是标准的
马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和
被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。
深度学习模型可以在强化学习中得到使用,形成
深度强化学习。
强化学习理论受到
行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于
监督学习和
非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。
强化学习问题在
信息论、
博弈论、
自动控制等领域有得到讨论,被用于解释
有限理性条件下的平衡态、设计
推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是<a href="./?mention=机器学习">机器学习</a>的<a href="./?mention=范式">范式</a>和<a href="./?mention=方法论">方法论</a>之一,用于描述和解决<a href="./?mention=智能体">智能体</a>(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。<br/>强化学习的常见模型是标准的<a href="./?mention=马尔可夫决策过程">马尔可夫决策过程</a>(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和<a href="./?mention=被动强化学习">被动强化学习</a>(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。<a href="./?mention=深度学习">深度学习</a>模型可以在强化学习中得到使用,形成<a href="./?mention=深度强化学习">深度强化学习</a>。<br/>强化学习理论受到<a href="./?mention=行为主义心理学">行为主义心理学</a>启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于<a href="./?mention=监督学习">监督学习</a>和<a href="./?mention=非监督学习">非监督学习</a>,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。<br/>强化学习问题在<a href="./?mention=信息论">信息论</a>、<a href="./?mention=博弈论">博弈论</a>、<a href="./?mention=自动控制">自动控制</a>等领域有得到讨论,被用于解释<a href="./?mention=有限理性">有限理性</a>条件下的平衡态、设计<a href="./?mention=推荐系统">推荐系统</a>和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。