强化学习核心知识仪表盘

图例 (Legend)

基础流程
核心概念
有模型方法
无模型方法

交互: 拖拽节点以重新排列。

一、基础框架:从过程到决策

强化学习的数学基础是从马尔可夫过程演化而来的。理解这一演进是理解所有后续算法的关键。

马尔可夫过程 (MP)

最简单的形式,只包含状态 $S$状态转移概率 $P(S_{t+1}|S_t)$。它描述了一个系统如何自动、随机地从一个状态演变到另一个状态,不涉及决策或奖励。

马尔可夫奖励过程 (MRP)

在MP的基础上增加了奖励 $R$折扣因子 $\gamma$。MRP使我们能够评估一个状态的长期价值,即状态价值函数 $V(s)$(从该状态出发的期望总回报)。

马尔可夫决策过程 (MDP)

最终形态,在MRP的基础上增加了动作 $A$。现在,状态的转移和奖励的获得同时取决于当前状态 $S_t$ 和智能体选择的动作 $A_t$。MDP是强化学习的完整数学框架,其目标是找到一个最优策略 $\pi^*$ 来最大化长期累积奖励。

核心模型关系对比

无动作影响 (No Action) 有动作影响 (Action)
完全可观测 马尔可夫过程 (MP) 马尔可夫决策过程 (MDP)
部分可观测 隐马尔可夫模型 (HMM) 部分可观测MDP (POMDP)

二、核心引擎:贝尔曼方程 (Bellman Equation)

如果MDP是问题,贝尔曼方程就是解决问题的核心引擎。它提供了一种递归的方式来定义和计算价值函数。它主要有两种形式:

这两种方程(期望 vs. 最优)的对立,构成了强化学习中几乎所有算法的底层逻辑。

三、“理想国”:有模型动态规划 (DP)

动态规划(DP)是在“理想国”中对贝尔曼方程的直接应用。这个“理想国”的假设是:我们拥有对环境的完美知识,即我们已知完整的模型 (Model-Based),包括状态转移概率 $P(s'|s, a)$ 和奖励函数 $R$。

策略迭代 (Policy Iteration)

交替执行两个步骤:1) 策略评估:使用贝尔曼期望方程迭代计算当前策略 $\pi$ 下的 $V^\pi(s)$。2) 策略改进:根据 $V^\pi(s)$ 贪婪地选择动作,得到新策略 $\pi'$。如此循环直至策略收敛。

价值迭代 (Value Iteration)

不显式地存储策略,而是直接将贝尔曼最优方程作为迭代更新规则,不断更新 $V(s)$,直到 $V(s)$ 收敛到最优价值 $V^*(s)$。最后再根据 $V^*$ 一次性提取最优策略。

DP方法对比

特性 策略迭代 (Policy Iteration) 价值迭代 (Value Iteration)
迭代过程 在“策略评估” $V_\pi$ 和“策略改进” $\pi$ 之间交替进行。 直接更新价值函数 $V$;策略是 $V$ 的贪心结果(隐式)。
核心操作 策略评估需完整的迭代循环(使用贝尔曼期望方程)。 价值更新仅做一次 max 更新(使用贝尔曼最优方程)。
收敛速度 收敛快(通常少数几次策略改进即可)。 收敛慢(需多次迭代让 $V$ 收敛)。

四、“现实世界”:无模型学习 (Model-Free)

当环境模型未知时,我们必须从与环境交互的经验(样本) 中学习。这就是无模型(Model-Free)学习。有两种基本方法从经验中估计价值。

蒙特卡洛 (MC) vs. 时序差分 (TD)

MC和TD都是无模型学习的基石,它们的核心区别在于何时以及如何更新价值。

维度 蒙特卡洛 (MC) 方法 时序差分 (TD) 方法
学习时机 需等待完整轨迹 (episode) 结束 每执行一步动作 (每走一步) 即可学习。
价值更新依据 依赖轨迹最终的实际回报 $G_t$。 结合当前即时奖励 $r_{t+1}$ 和下一个状态的估计价值 $\gamma V(s_{t+1})$。
核心思想 基于大数定理,用样本均值代替期望。 利用“自举”(Bootstrapping),用估计值更新估计值。

五、逻辑串联:DP与TD的统一

强化学习中最经典的算法Q-Learning和SARSA,正是将动态规划(DP)中的两种核心逻辑,应用到了时序差分(TD)的采样框架上。

Q-Learning (异策略 Off-Policy)

Q-Learning 是“价值迭代 (Value Iteration)”的无模型采样版本。
它的更新目标 (TD Target) 是:$r_{t+1} + \gamma \max_{a} Q(s_{t+1}, a)$。
这个 max 操作直接对应了贝尔曼最优方程。它不管实际执行了什么动作,始终以“最优”为目标来学习,因此是异策略(Off-Policy)。

SARSA (同策略 On-Policy)

SARSA 是“策略迭代 (Policy Iteration)”的无模型采样版本。
它的更新目标 (TD Target) 是:$r_{t+1} + \gamma Q(s_{t+1}, a_{t+1})$。
它使用的 $a_{t+1}$ 是当前策略实际选择的下一个动作。它是在评估和改进当前正在执行的策略,因此是同策略(On-Policy)。这对应了策略迭代中“评估当前策略”的贝尔曼期望方程思想。

最终知识地图:算法的“四象限”

这张表总结了所有核心算法的逻辑归属:

方法论 “理想国” (有模型, 基于DP) “现实世界” (无模型, 基于TD采样)
基于“最优” (价值迭代)
(应用贝尔曼最优方程)
价值迭代 (Value Iteration) Q-Learning (Off-Policy)
基于“期望” (策略迭代)
(应用贝尔曼期望方程)
策略迭代 (Policy Iteration) SARSA (On-Policy)