强化学习核心概念关系互动图解

点击下方概念卡片，高亮关联关系；悬浮卡片查看详情；图表可缩放/拖拽

核心概念

max 函数

数学工具：计算一组数值的最大值（如 max Q(s,a)）

argmax 函数

数学工具：返回最大价值对应的动作（如 argmaxₐ Q(s,a)）

价值更新

核心操作：更新价值函数 V/Q 的估计值

策略更新

核心操作：基于价值函数改进策略 π

贪心算法

决策逻辑：选择当前局部最优动作

策略迭代

完整算法：策略评估 → 策略提升循环

价值迭代

完整算法：直接更新最优价值 → 提取策略

核心目标

找到最优策略 π*，最大化长期收益

关系图表

图例

数学工具

核心操作

完整算法

核心目标

交互: 拖拽节点以重新排列

关联关系说明

点击左侧概念卡片，查看该概念与其他概念的关联关系...

概念详情总表

概念	核心作用	依赖组件	关联对象
max 函数	计算最大价值值（如 max Q(s,a)）	-	价值更新、价值迭代
argmax 函数	选择最大价值对应的动作	max 函数	策略更新、贪心算法、价值迭代
价值更新	更新 V/Q 函数估计	max 函数（价值迭代）、当前策略（策略迭代）	策略更新、策略迭代、价值迭代
策略更新	改进策略 π	argmax 函数、价值函数	贪心算法、策略迭代
贪心算法	局部最优决策逻辑	argmax 函数	策略更新、价值迭代
策略迭代	循环优化策略至 π*	价值更新、策略更新、max/argmax	核心目标
价值迭代	直接求最优价值再提策略	max 函数、argmax 函数	核心目标