强化学习核心概念关系互动图解

点击下方概念卡片,高亮关联关系;悬浮卡片查看详情;图表可缩放/拖拽

核心概念

max 函数

数学工具:计算一组数值的最大值(如 max Q(s,a))

argmax 函数

数学工具:返回最大价值对应的动作(如 argmaxₐ Q(s,a))

价值更新

核心操作:更新价值函数 V/Q 的估计值

策略更新

核心操作:基于价值函数改进策略 π

贪心算法

决策逻辑:选择当前局部最优动作

策略迭代

完整算法:策略评估 → 策略提升 循环

价值迭代

完整算法:直接更新最优价值 → 提取策略

核心目标

找到最优策略 π*,最大化长期收益

关系图表

图例

数学工具
核心操作
完整算法
核心目标

交互: 拖拽节点以重新排列

关联关系说明

点击左侧概念卡片,查看该概念与其他概念的关联关系...

概念详情总表

概念 核心作用 依赖组件 关联对象
max 函数 计算最大价值值(如 max Q(s,a)) - 价值更新、价值迭代
argmax 函数 选择最大价值对应的动作 max 函数 策略更新、贪心算法、价值迭代
价值更新 更新 V/Q 函数估计 max 函数(价值迭代)、当前策略(策略迭代) 策略更新、策略迭代、价值迭代
策略更新 改进策略 π argmax 函数、价值函数 贪心算法、策略迭代
贪心算法 局部最优决策逻辑 argmax 函数 策略更新、价值迭代
策略迭代 循环优化策略至 π* 价值更新、策略更新、max/argmax 核心目标
价值迭代 直接求最优价值再提策略 max 函数、argmax 函数 核心目标