图例 (Legend)
交互: 拖拽节点以重新排列。
一、基础框架:从过程到决策
强化学习的数学基础是从马尔可夫过程演化而来的。理解这一演进是理解所有后续算法的关键。
马尔可夫过程 (MP)
最简单的形式,只包含状态 $S$ 和状态转移概率 $P(S_{t+1}|S_t)$。它描述了一个系统如何自动、随机地从一个状态演变到另一个状态,不涉及决策或奖励。
马尔可夫奖励过程 (MRP)
在MP的基础上增加了奖励 $R$ 和折扣因子 $\gamma$。MRP使我们能够评估一个状态的长期价值,即状态价值函数 $V(s)$(从该状态出发的期望总回报)。
马尔可夫决策过程 (MDP)
最终形态,在MRP的基础上增加了动作 $A$。现在,状态的转移和奖励的获得同时取决于当前状态 $S_t$ 和智能体选择的动作 $A_t$。MDP是强化学习的完整数学框架,其目标是找到一个最优策略 $\pi^*$ 来最大化长期累积奖励。
核心模型关系对比
| 无动作影响 (No Action) | 有动作影响 (Action) | |
|---|---|---|
| 完全可观测 | 马尔可夫过程 (MP) | 马尔可夫决策过程 (MDP) |
| 部分可观测 | 隐马尔可夫模型 (HMM) | 部分可观测MDP (POMDP) |
二、核心引擎:贝尔曼方程 (Bellman Equation)
如果MDP是问题,贝尔曼方程就是解决问题的核心引擎。它提供了一种递归的方式来定义和计算价值函数。它主要有两种形式:
- 贝尔曼期望方程 (Bellman Expectation Equation): 用于策略评估。计算在遵循某一特定策略 $\pi$ 的前提下,某个状态的价值 $V^\pi(s)$ 或 $Q^\pi(s, a)$。
- 贝尔曼最优方程 (Bellman Optimality Equation): 用于策略控制(寻找最优策略)。它定义了在所有可能的策略中能达到的最大价值 $V^*(s)$ 或 $Q^*(s, a)$。
这两种方程(期望 vs. 最优)的对立,构成了强化学习中几乎所有算法的底层逻辑。
三、“理想国”:有模型动态规划 (DP)
动态规划(DP)是在“理想国”中对贝尔曼方程的直接应用。这个“理想国”的假设是:我们拥有对环境的完美知识,即我们已知完整的模型 (Model-Based),包括状态转移概率 $P(s'|s, a)$ 和奖励函数 $R$。
策略迭代 (Policy Iteration)
交替执行两个步骤:1) 策略评估:使用贝尔曼期望方程迭代计算当前策略 $\pi$ 下的 $V^\pi(s)$。2) 策略改进:根据 $V^\pi(s)$ 贪婪地选择动作,得到新策略 $\pi'$。如此循环直至策略收敛。
价值迭代 (Value Iteration)
不显式地存储策略,而是直接将贝尔曼最优方程作为迭代更新规则,不断更新 $V(s)$,直到 $V(s)$ 收敛到最优价值 $V^*(s)$。最后再根据 $V^*$ 一次性提取最优策略。
DP方法对比
| 特性 | 策略迭代 (Policy Iteration) | 价值迭代 (Value Iteration) |
|---|---|---|
| 迭代过程 | 在“策略评估” $V_\pi$ 和“策略改进” $\pi$ 之间交替进行。 | 直接更新价值函数 $V$;策略是 $V$ 的贪心结果(隐式)。 |
| 核心操作 | 策略评估需完整的迭代循环(使用贝尔曼期望方程)。 | 价值更新仅做一次 max 更新(使用贝尔曼最优方程)。 |
| 收敛速度 | 收敛快(通常少数几次策略改进即可)。 | 收敛慢(需多次迭代让 $V$ 收敛)。 |
四、“现实世界”:无模型学习 (Model-Free)
当环境模型未知时,我们必须从与环境交互的经验(样本) 中学习。这就是无模型(Model-Free)学习。有两种基本方法从经验中估计价值。
蒙特卡洛 (MC) vs. 时序差分 (TD)
MC和TD都是无模型学习的基石,它们的核心区别在于何时以及如何更新价值。
| 维度 | 蒙特卡洛 (MC) 方法 | 时序差分 (TD) 方法 |
|---|---|---|
| 学习时机 | 需等待完整轨迹 (episode) 结束。 | 每执行一步动作 (每走一步) 即可学习。 |
| 价值更新依据 | 依赖轨迹最终的实际回报 $G_t$。 | 结合当前即时奖励 $r_{t+1}$ 和下一个状态的估计价值 $\gamma V(s_{t+1})$。 |
| 核心思想 | 基于大数定理,用样本均值代替期望。 | 利用“自举”(Bootstrapping),用估计值更新估计值。 |
五、逻辑串联:DP与TD的统一
强化学习中最经典的算法Q-Learning和SARSA,正是将动态规划(DP)中的两种核心逻辑,应用到了时序差分(TD)的采样框架上。
Q-Learning (异策略 Off-Policy)
Q-Learning 是“价值迭代 (Value Iteration)”的无模型采样版本。
它的更新目标 (TD Target) 是:$r_{t+1} + \gamma \max_{a} Q(s_{t+1}, a)$。
这个 max 操作直接对应了贝尔曼最优方程。它不管实际执行了什么动作,始终以“最优”为目标来学习,因此是异策略(Off-Policy)。
SARSA (同策略 On-Policy)
SARSA 是“策略迭代 (Policy Iteration)”的无模型采样版本。
它的更新目标 (TD Target) 是:$r_{t+1} + \gamma Q(s_{t+1}, a_{t+1})$。
它使用的 $a_{t+1}$ 是当前策略实际选择的下一个动作。它是在评估和改进当前正在执行的策略,因此是同策略(On-Policy)。这对应了策略迭代中“评估当前策略”的贝尔曼期望方程思想。
最终知识地图:算法的“四象限”
这张表总结了所有核心算法的逻辑归属:
| 方法论 | “理想国” (有模型, 基于DP) | “现实世界” (无模型, 基于TD采样) |
|---|---|---|
| 基于“最优” (价值迭代) (应用贝尔曼最优方程) |
价值迭代 (Value Iteration) | Q-Learning (Off-Policy) |
| 基于“期望” (策略迭代) (应用贝尔曼期望方程) |
策略迭代 (Policy Iteration) | SARSA (On-Policy) |