知识讲堂 · Jae Daily

算法理论第一讲

可验证奖励强化学习

就像让学生做有标准答案的数学题自学——不需要老师批改作文，对错一目了然，学生在反复试错中自发学会了解题思路。

历史演进

强化学习用于语言模型对齐的根本动因，是人类偏好标注成本极高且难以扩展——当任务复杂度超过标注者认知边界时，人工打分本身就成为瓶颈，因此研究者开始寻找"不需要人打分、环境自动给信号"的训练范式。

2017

InstructGPT前身：RLHF奠基

OpenAI的Christiano等人在NeurIPS 2017发表"Deep Reinforcement Learning from Human Preferences"，首次系统性地将人类偏好信号引入RL训练循环。核心做法是训练一个奖励模型（Reward Model）来拟合人类打分，再用PPO优化策略。这一范式后来成为InstructGPT和ChatGPT的基础。但问题随之暴露：奖励模型本身会被"黑进"（reward hacking），策略学会欺骗奖励模型而非真正完成任务。

2022–2023

过程奖励模型（PRM）的兴起

为缓解稀疏奖励和奖励欺骗，OpenAI在"Let's Verify Step by Step"（2023）中提出对推理链每一步打分的PRM。相比只看最终答案的结果奖励模型（ORM），PRM提供更密集的中间信号，但代价是需要大量人工标注每一步的正确性，成本数量级更高。这揭示了一个核心矛盾：信号越密集，标注成本越高。

2024年初

DeepSeekMath与GRPO：可验证奖励的突破

DeepSeek团队在DeepSeekMath（2024.02）中提出GRPO（Group Relative Policy Optimization），关键洞察是：数学题的答案对错可以被程序自动验证——无需人类，无需奖励模型，直接用符号计算引擎判断最终答案是否正确。这将奖励信号的获取成本降至接近零，同时彻底规避了奖励模型的过拟合问题。GRPO在一组采样输出中计算相对优势，避免了PPO需要额外价值网络的开销。

2025年初

DeepSeek-R1与RLVR范式确立

DeepSeek-R1（2025.01）将RLVR推向极致：仅用格式奖励（答案是否在`<answer>`标签内）和正确性奖励（数学/代码可验证）两类稀疏信号，从基础模型直接训练出具备长链推理能力的模型，且涌现出"自我反思"行为。这一结果震动学界，证明可验证奖励的稀疏信号足以驱动复杂推理能力的涌现，无需密集的人工标注。RLVR由此成为独立于RLHF的训练范式。

核心思想

在环境能自动判断答案对错的任务（数学、代码、逻辑）中，直接用"对/错"作为奖励信号训练语言模型，完全绕过人工标注和奖励模型，用极低成本激发模型的推理能力涌现。

数学结构

RLVR的核心优化目标继承自PPO，但奖励函数的定义是关键区别。标准PPO的目标函数为： $$\mathcal{L}^{\text{PPO}}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) \hat{A}_t,\ \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t \right) \right]$$ 其中 $r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_\text{old}}(a_t|s_t)}$ 是新旧策略的概率比，$\hat{A}_t$ 是优势估计，$\epsilon$ 是裁剪系数（通常0.2）。 GRPO对此的改造在于优势估计方式。对同一问题采样 $G$ 条输出 $\{o_1, \ldots, o_G\}$，每条获得可验证奖励 $r_i \in \{0, 1\}$，组内归一化得到优势： $$\hat{A}_i = \frac{r_i - \text{mean}(\{r_j\}_{j=1}^G)}{\text{std}(\{r_j\}_{j=1}^G)}$$ 这样设计的原因：①无需单独训练价值网络（Critic），节省显存和计算；②组内相对比较使梯度信号更稳定，避免绝对奖励值的量纲问题；③当组内所有输出都对或都错时，优势为零，自然不更新——这是一种隐式的课程学习。加入KL散度惩罚防止策略偏离参考模型过远： $$\mathcal{L} = \mathcal{L}^{\text{GRPO}} - \beta \cdot D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})$$ 其中 $\beta$ 控制探索与稳定性的权衡，$\pi_{\text{ref}}$ 通常是SFT后的模型。

工作机制

RLVR的整体逻辑是：用可自动判断的任务构造零成本奖励信号，通过组内对比优势估计驱动策略迭代，让模型在反复试错中自发习得推理结构。

Step 1任务域筛选与奖励函数设计

首先必须选择"可验证"的任务域。数学题（答案唯一）、代码（单元测试通过率）、形式逻辑（符号验证）是天然适合的领域。奖励函数通常是二值的：$r=1$（正确）或 $r=0$（错误），有时加入格式奖励（如答案是否在指定标签内）。这一步的关键洞察是：奖励函数的设计决定了什么行为被强化——过于宽松的格式奖励会导致模型学会"看起来正确"而非"真正正确"。

Step 2组采样（Group Sampling）

对每道训练题，用当前策略 $\pi_\theta$ 采样 $G$（通常8~16）条完整输出。这与PPO的单步token级采样不同——RLVR在序列级别操作，每条输出是完整的推理链+答案。采样温度通常设为0.7~1.0以保证多样性。为什么要采样多条？因为单条输出的奖励信号方差极大（一道题可能全对或全错），组内对比能有效降低方差，提供更稳定的梯度方向。

Step 3可验证奖励计算与优势归一化

将每条输出的最终答案提取出来，送入验证器（数学用SymPy/Mathematica，代码用沙箱执行）获得奖励 $r_i$。然后在组内做均值-方差归一化得到 $\hat{A}_i$。实现细节：答案提取需要鲁棒的正则表达式或专用解析器，这往往是工程上最容易出错的环节；验证器需要在沙箱中运行以防代码执行安全问题；超时的输出（推理链过长）通常赋予 $r=0$。

Step 4策略梯度更新与KL约束

用归一化优势 $\hat{A}_i$ 加权每条输出中每个token的对数概率，计算GRPO目标并反向传播。同时计算当前策略与参考策略（SFT模型）的token级KL散度作为惩罚项。关键工程细节：①只对"答案部分"的token计算损失还是对整个推理链计算，直接影响推理链长度的涌现；②KL系数 $\beta$ 过大会导致模型无法探索，过小会导致策略崩溃（collapse）；③通常每隔若干步将参考模型更新为当前策略（迭代式RLVR）。

Step 5涌现行为的观察与课程设计

随着训练进行，模型会自发涌现"等等，让我重新检查"类的自我反思行为，推理链长度也会自适应增长。这不是显式设计的，而是因为更长的正确推理链获得更高奖励。课程学习（从简单题到难题）和难度采样（优先选择组内有对有错的题，即"有学习信号"的题）是提升训练效率的关键工程手段。

长远价值

RLVR已成为2025年最重要的LLM训练范式之一。DeepSeek-R1、Qwen-QwQ、Kimi k1.5等顶级推理模型均采用此路线。其核心价值在于：①将训练成本从"人工标注瓶颈"解放出来；②在数学竞赛（AIME、AMC）和代码生成（HumanEval、LiveCodeBench）上实现了远超SFT的性能；③证明了稀疏奖励足以驱动复杂认知能力涌现，为AI自主学习提供了新的理论基础。Google的Gemini 2.0 Flash Thinking和OpenAI的o系列模型也在类似路线上探索。

前沿动向

当前核心开放问题：①RLVR能否迁移到"不可验证"领域（创意写作、开放问答）？②奖励稀疏性与推理链长度的最优平衡点在哪里？③如何防止"推理链虚假延长"（模型学会写长但无效的推理）？④多步骤可验证奖励（过程级RLVR）是否能进一步提升性能？⑤本文[0]提出的自蒸馏+RLVR混合范式能否兼得密集信号与可验证性的优点？

工程·思维第二讲

LLM技能退化认知机制

▶ YouTube ▶ B站 ↗ 原始论文

就像一直用计算器的人，加减法还是"懂"的，但真让他心算一道三位数乘法，才发现那个能力已经悄悄锈掉了。

历史演进

工具辅助导致人类技能退化的担忧，并非AI时代的新问题——其根源在于人类认知系统对"努力"的天然规避，以及大脑可塑性对使用频率的高度敏感。

1970s

认知负荷理论的奠基

澳大利亚心理学家John Sweller在研究数学问题解决时发现，人类工作记忆容量极为有限（Miller定律：7±2个组块），当外部工具承担认知负荷时，大脑会重新分配神经资源。这一理论最初用于教学设计，但其核心洞察——"外包认知任务会减少对应神经回路的激活"——为后来的技能退化研究奠定了基础。

1990s–2000s

"认知卸载"概念的系统化

哲学家Andy Clark和David Chalmers在1998年提出"延展心智"（Extended Mind）理论：人类认知天然地将计算任务外包给环境（笔记本、计算器、GPS）。心理学家Rolf Reber随后区分了"良性认知卸载"（释放资源用于更高阶思维）和"有害认知卸载"（导致底层技能萎缩）。GPS导航研究（Dahmani & Bohbot, 2020, Nature Communications）提供了直接证据：长期依赖GPS的人海马体空间导航相关区域灰质密度显著降低，且这一变化在停止使用GPS后部分可逆。

2011

"谷歌效应"与记忆外包

哈佛心理学家Betsy Sparrow在Science发表研究，发现人们在知道信息可以被搜索到时，会减少对信息本身的记忆努力，转而记忆"在哪里能找到信息"（元记忆）。这被称为"谷歌效应"（Google Effect）。关键发现：这不是记忆能力下降，而是记忆策略的主动转变——大脑在优化，但优化方向可能与长期技能发展相悖。

2011

合意困难理论（Desirable Difficulties）

认知心理学家Robert Bjork系统提出"合意困难"理论：学习过程中的困难和挫折（间隔重复、交错练习、测试效应）反而促进长期记忆巩固，而流畅感（fluency）是学习的假象。这一理论直接解释了为什么LLM辅助编程"感觉很顺"却可能导致技能退化——流畅的外部辅助消除了对长期学习至关重要的"必要挣扎"。

2023–2025

AI辅助编程的实证研究

随着GitHub Copilot和ChatGPT的普及，多项研究开始量化AI辅助对编程技能的影响。MIT和微软的联合研究（2023）发现Copilot显著提升短期生产力，但程序员对代码逻辑的理解深度下降。更值得警惕的是"元认知幻觉"：使用者高估自己的理解程度，因为他们能读懂AI生成的代码，却无法独立写出来——这与"识别"和"回忆"在认知上的根本差异有关。

核心思想

长期将认知任务外包给AI工具，会导致大脑对应神经回路因缺乏激活而萎缩，同时消除了对技能巩固至关重要的"必要挣扎"，造成能力幻觉——你以为自己会，但独立操作时才发现已经不会了。

数学结构

N/A（核心机制为认知科学原理，无核心数学公式，但可用信息论视角理解）从信息论角度，技能的形成可以理解为将外部信息压缩为内部表示的过程。设任务复杂度为 $H(T)$（信息熵），工具承担的部分为 $H(T|{\text{tool}})$，则大脑实际处理的信息量为： $$I_{\text{brain}} = H(T) - H(T|\text{tool})$$ 当工具能力趋于完美时，$H(T|\text{tool}) \to H(T)$，$I_{\text{brain}} \to 0$。大脑处理的信息量趋零，对应神经回路的激活频率趋零，根据Hebb学习律（"一起激活的神经元连接在一起"），突触连接强度随时间衰减。这不是比喻，而是有神经生物学基础的机制。

工作机制

技能退化是一个多层次的认知-神经过程，从"感觉还行"到"真的不会了"往往需要数月，且退化过程本身难以被当事人察觉。

Step 1认知卸载的启动：阻力最小路径

人类大脑的默认模式是最小化即时认知努力。当LLM能在3秒内给出可用代码时，大脑会迅速建立"遇到问题→询问LLM"的条件反射回路，因为这条路径的即时奖励（问题解决）远大于"自己思考"的延迟奖励（技能提升）。工程师需要意识到：这不是意志力问题，而是神经系统的默认优化方向。对抗它需要主动的元认知干预，而非简单的"我要少用AI"的决心。

Step 2元认知幻觉的形成：识别≠回忆

阅读AI生成的代码并理解它（识别，Recognition）和从空白页面独立写出代码（回忆，Recall）在认知上是完全不同的过程，激活的神经回路也不同。长期使用LLM的工程师会积累大量"识别经验"，这会产生强烈的能力幻觉——因为读懂代码的流畅感被误解为"我会写这个"。检验方法：关掉所有工具，在空白编辑器中独立完成一个你"以为自己会"的任务，结果往往令人震惊。

Step 3合意困难的消失：学习信号被截断

Bjork的研究表明，错误、卡顿、反复尝试是长期记忆巩固的必要条件，而非需要消除的障碍。当LLM立即提供正确答案时，这些"合意困难"被完全消除。从神经可塑性角度：错误触发预测误差信号（多巴胺系统），驱动突触权重更新；而直接获得正确答案不产生预测误差，因此不触发学习机制。LLM的高效性恰恰是其对学习有害的原因。

Step 4退化的不对称性：快速退化，缓慢恢复

神经可塑性的一个关键特征是退化速度远快于建立速度。研究表明，运动技能在停止练习后数周内开始显著退化，认知技能（如编程、数学推导）的退化时间线类似。更糟糕的是，退化通常从"最近习得的、练习最少的"技能开始，而这些往往是工程师职业发展最需要的前沿技能。恢复需要刻意练习（Deliberate Practice），且需要接受短期生产力下降的代价。

Step 5工程师的主动干预策略

基于上述机制，有效的干预策略必须针对每个退化环节：①时间分区：设定"无AI时段"（如每天上午2小时），专门用于独立解决问题，保持神经回路激活；②先尝试后查询：规定自己独立思考至少15分钟再使用LLM，这段挣扎时间是学习发生的窗口；③主动回忆验证：使用LLM后，关闭对话，尝试独立重现解决方案，检验是否真正理解；④输出型学习：写技术博客、给同事讲解、做代码Review，这些"输出"行为强制激活回忆回路；⑤错误日志：记录自己独立犯的错误，这些错误是最宝贵的学习信号，不应被LLM的即时纠错消除。

长远价值

这一认知框架对音视频AI工程师尤为重要：信号处理基础（傅里叶变换、滤波器设计）、CUDA优化、模型调试等深度技能，一旦退化极难快速恢复，而这些恰恰是区分高级工程师和普通工程师的核心壁垒。Google、Meta等公司已开始在面试中加入"无工具编程"环节，正是对这一问题的制度性回应。理解退化机制，才能设计出真正有效的学习策略，而非依赖意志力。

前沿动向

当前研究热点：①AI辅助对不同经验层级工程师的差异化影响（初级工程师退化更快还是更慢？）；②如何设计"有合意困难的AI辅助工具"（AI故意不给完整答案，只给提示）；③神经影像学研究AI使用对大脑结构的长期影响；④组织层面如何设计工程师成长体系以对抗工具依赖；⑤"AI原生"工程师（从学习起就用AI）与传统工程师的能力结构差异。

可验证奖励强化学习

LLM技能退化认知机制

往期讲解档案 39 个知识点