点击下方概念卡片,高亮关联关系;悬浮卡片查看详情;图表可缩放/拖拽
数学工具:计算一组数值的最大值(如 max Q(s,a))
数学工具:返回最大价值对应的动作(如 argmaxₐ Q(s,a))
核心操作:更新价值函数 V/Q 的估计值
核心操作:基于价值函数改进策略 π
决策逻辑:选择当前局部最优动作
完整算法:策略评估 → 策略提升 循环
完整算法:直接更新最优价值 → 提取策略
找到最优策略 π*,最大化长期收益
交互: 拖拽节点以重新排列
点击左侧概念卡片,查看该概念与其他概念的关联关系...
| 概念 | 核心作用 | 依赖组件 | 关联对象 |
|---|---|---|---|
| max 函数 | 计算最大价值值(如 max Q(s,a)) | - | 价值更新、价值迭代 |
| argmax 函数 | 选择最大价值对应的动作 | max 函数 | 策略更新、贪心算法、价值迭代 |
| 价值更新 | 更新 V/Q 函数估计 | max 函数(价值迭代)、当前策略(策略迭代) | 策略更新、策略迭代、价值迭代 |
| 策略更新 | 改进策略 π | argmax 函数、价值函数 | 贪心算法、策略迭代 |
| 贪心算法 | 局部最优决策逻辑 | argmax 函数 | 策略更新、价值迭代 |
| 策略迭代 | 循环优化策略至 π* | 价值更新、策略更新、max/argmax | 核心目标 |
| 价值迭代 | 直接求最优价值再提策略 | max 函数、argmax 函数 | 核心目标 |