强化学习核心知识仪表盘

图例 (Legend)

基础流程

核心概念

有模型方法

无模型方法

交互: 拖拽节点以重新排列。

一、基础框架：从过程到决策

强化学习的数学基础是从马尔可夫过程演化而来的。理解这一演进是理解所有后续算法的关键。

马尔可夫过程 (MP)

最简单的形式，只包含状态 $S$ 和状态转移概率 $P(S_{t+1}|S_t)$。它描述了一个系统如何自动、随机地从一个状态演变到另一个状态，不涉及决策或奖励。

马尔可夫奖励过程 (MRP)

在MP的基础上增加了奖励 $R$ 和折扣因子 $\gamma$。MRP使我们能够评估一个状态的长期价值，即状态价值函数 $V(s)$（从该状态出发的期望总回报）。

马尔可夫决策过程 (MDP)

最终形态，在MRP的基础上增加了动作 $A$。现在，状态的转移和奖励的获得同时取决于当前状态 $S_t$ 和智能体选择的动作 $A_t$。MDP是强化学习的完整数学框架，其目标是找到一个最优策略 $\pi^*$ 来最大化长期累积奖励。

核心模型关系对比

	无动作影响 (No Action)	有动作影响 (Action)
完全可观测	马尔可夫过程 (MP)	马尔可夫决策过程 (MDP)
部分可观测	隐马尔可夫模型 (HMM)	部分可观测MDP (POMDP)

二、核心引擎：贝尔曼方程 (Bellman Equation)

如果MDP是问题，贝尔曼方程就是解决问题的核心引擎。它提供了一种递归的方式来定义和计算价值函数。它主要有两种形式：

贝尔曼期望方程 (Bellman Expectation Equation): 用于策略评估。计算在遵循某一特定策略 $\pi$ 的前提下，某个状态的价值 $V^\pi(s)$ 或 $Q^\pi(s, a)$。
贝尔曼最优方程 (Bellman Optimality Equation): 用于策略控制（寻找最优策略）。它定义了在所有可能的策略中能达到的最大价值 $V^*(s)$ 或 $Q^*(s, a)$。

这两种方程（期望 vs. 最优）的对立，构成了强化学习中几乎所有算法的底层逻辑。

三、“理想国”：有模型动态规划 (DP)

动态规划（DP）是在“理想国”中对贝尔曼方程的直接应用。这个“理想国”的假设是：我们拥有对环境的完美知识，即我们已知完整的模型 (Model-Based)，包括状态转移概率 $P(s'|s, a)$ 和奖励函数 $R$。

策略迭代 (Policy Iteration)

交替执行两个步骤：1) 策略评估：使用贝尔曼期望方程迭代计算当前策略 $\pi$ 下的 $V^\pi(s)$。2) 策略改进：根据 $V^\pi(s)$ 贪婪地选择动作，得到新策略 $\pi'$。如此循环直至策略收敛。

价值迭代 (Value Iteration)

不显式地存储策略，而是直接将贝尔曼最优方程作为迭代更新规则，不断更新 $V(s)$，直到 $V(s)$ 收敛到最优价值 $V^*(s)$。最后再根据 $V^*$ 一次性提取最优策略。

DP方法对比

特性	策略迭代 (Policy Iteration)	价值迭代 (Value Iteration)
迭代过程	在“策略评估” $V_\pi$ 和“策略改进” $\pi$ 之间交替进行。	直接更新价值函数 $V$；策略是 $V$ 的贪心结果（隐式）。
核心操作	策略评估需完整的迭代循环（使用贝尔曼期望方程）。	价值更新仅做一次 `max` 更新（使用贝尔曼最优方程）。
收敛速度	收敛快（通常少数几次策略改进即可）。	收敛慢（需多次迭代让 $V$ 收敛）。

四、“现实世界”：无模型学习 (Model-Free)

当环境模型未知时，我们必须从与环境交互的经验（样本） 中学习。这就是无模型（Model-Free）学习。有两种基本方法从经验中估计价值。

蒙特卡洛 (MC) vs. 时序差分 (TD)

MC和TD都是无模型学习的基石，它们的核心区别在于何时以及如何更新价值。

维度	蒙特卡洛 (MC) 方法	时序差分 (TD) 方法
学习时机	需等待完整轨迹 (episode) 结束。	每执行一步动作 (每走一步) 即可学习。
价值更新依据	依赖轨迹最终的实际回报 $G_t$。	结合当前即时奖励 $r_{t+1}$ 和下一个状态的估计价值 $\gamma V(s_{t+1})$。
核心思想	基于大数定理，用样本均值代替期望。	利用“自举”(Bootstrapping)，用估计值更新估计值。

五、逻辑串联：DP与TD的统一

强化学习中最经典的算法Q-Learning和SARSA，正是将动态规划（DP）中的两种核心逻辑，应用到了时序差分（TD）的采样框架上。

Q-Learning (异策略 Off-Policy)

Q-Learning 是“价值迭代 (Value Iteration)”的无模型采样版本。
它的更新目标 (TD Target) 是：$r_{t+1} + \gamma \max_{a} Q(s_{t+1}, a)$。
这个 max 操作直接对应了贝尔曼最优方程。它不管实际执行了什么动作，始终以“最优”为目标来学习，因此是异策略（Off-Policy）。

SARSA (同策略 On-Policy)

SARSA 是“策略迭代 (Policy Iteration)”的无模型采样版本。
它的更新目标 (TD Target) 是：$r_{t+1} + \gamma Q(s_{t+1}, a_{t+1})$。
它使用的 $a_{t+1}$ 是当前策略实际选择的下一个动作。它是在评估和改进当前正在执行的策略，因此是同策略（On-Policy）。这对应了策略迭代中“评估当前策略”的贝尔曼期望方程思想。

最终知识地图：算法的“四象限”

这张表总结了所有核心算法的逻辑归属：

方法论	“理想国” (有模型, 基于DP)	“现实世界” (无模型, 基于TD采样)
基于“最优” (价值迭代) (应用贝尔曼最优方程)	价值迭代 (Value Iteration)	Q-Learning (Off-Policy)
基于“期望” (策略迭代) (应用贝尔曼期望方程)	策略迭代 (Policy Iteration)	SARSA (On-Policy)