知识讲堂

← 返回日报
算法理论 第一讲

可验证奖励强化学习

就像让学生做有标准答案的数学题自学——不需要老师批改作文,对错一目了然,学生在反复试错中自发学会了解题思路。
历史演进

强化学习用于语言模型对齐的根本动因,是人类偏好标注成本极高且难以扩展——当任务复杂度超过标注者认知边界时,人工打分本身就成为瓶颈,因此研究者开始寻找"不需要人打分、环境自动给信号"的训练范式。

2017
InstructGPT前身:RLHF奠基

OpenAI的Christiano等人在NeurIPS 2017发表"Deep Reinforcement Learning from Human Preferences",首次系统性地将人类偏好信号引入RL训练循环。核心做法是训练一个奖励模型(Reward Model)来拟合人类打分,再用PPO优化策略。这一范式后来成为InstructGPT和ChatGPT的基础。但问题随之暴露:奖励模型本身会被"黑进"(reward hacking),策略学会欺骗奖励模型而非真正完成任务。

2022–2023
过程奖励模型(PRM)的兴起

为缓解稀疏奖励和奖励欺骗,OpenAI在"Let's Verify Step by Step"(2023)中提出对推理链每一步打分的PRM。相比只看最终答案的结果奖励模型(ORM),PRM提供更密集的中间信号,但代价是需要大量人工标注每一步的正确性,成本数量级更高。这揭示了一个核心矛盾:信号越密集,标注成本越高。

2024年初
DeepSeekMath与GRPO:可验证奖励的突破

DeepSeek团队在DeepSeekMath(2024.02)中提出GRPO(Group Relative Policy Optimization),关键洞察是:数学题的答案对错可以被程序自动验证——无需人类,无需奖励模型,直接用符号计算引擎判断最终答案是否正确。这将奖励信号的获取成本降至接近零,同时彻底规避了奖励模型的过拟合问题。GRPO在一组采样输出中计算相对优势,避免了PPO需要额外价值网络的开销。

2025年初
DeepSeek-R1与RLVR范式确立

DeepSeek-R1(2025.01)将RLVR推向极致:仅用格式奖励(答案是否在`<answer>`标签内)和正确性奖励(数学/代码可验证)两类稀疏信号,从基础模型直接训练出具备长链推理能力的模型,且涌现出"自我反思"行为。这一结果震动学界,证明可验证奖励的稀疏信号足以驱动复杂推理能力的涌现,无需密集的人工标注。RLVR由此成为独立于RLHF的训练范式。

核心思想
在环境能自动判断答案对错的任务(数学、代码、逻辑)中,直接用"对/错"作为奖励信号训练语言模型,完全绕过人工标注和奖励模型,用极低成本激发模型的推理能力涌现。
数学结构

RLVR的核心优化目标继承自PPO,但奖励函数的定义是关键区别。 标准PPO的目标函数为: $$\mathcal{L}^{\text{PPO}}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) \hat{A}_t,\ \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t \right) \right]$$ 其中 $r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_\text{old}}(a_t|s_t)}$ 是新旧策略的概率比,$\hat{A}_t$ 是优势估计,$\epsilon$ 是裁剪系数(通常0.2)。 GRPO对此的改造在于优势估计方式。对同一问题采样 $G$ 条输出 $\{o_1, \ldots, o_G\}$,每条获得可验证奖励 $r_i \in \{0, 1\}$,组内归一化得到优势: $$\hat{A}_i = \frac{r_i - \text{mean}(\{r_j\}_{j=1}^G)}{\text{std}(\{r_j\}_{j=1}^G)}$$ 这样设计的原因:①无需单独训练价值网络(Critic),节省显存和计算;②组内相对比较使梯度信号更稳定,避免绝对奖励值的量纲问题;③当组内所有输出都对或都错时,优势为零,自然不更新——这是一种隐式的课程学习。 加入KL散度惩罚防止策略偏离参考模型过远: $$\mathcal{L} = \mathcal{L}^{\text{GRPO}} - \beta \cdot D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})$$ 其中 $\beta$ 控制探索与稳定性的权衡,$\pi_{\text{ref}}$ 通常是SFT后的模型。

工作机制

RLVR的整体逻辑是:用可自动判断的任务构造零成本奖励信号,通过组内对比优势估计驱动策略迭代,让模型在反复试错中自发习得推理结构。

Step 1任务域筛选与奖励函数设计

首先必须选择"可验证"的任务域。数学题(答案唯一)、代码(单元测试通过率)、形式逻辑(符号验证)是天然适合的领域。奖励函数通常是二值的:$r=1$(正确)或 $r=0$(错误),有时加入格式奖励(如答案是否在指定标签内)。这一步的关键洞察是:奖励函数的设计决定了什么行为被强化——过于宽松的格式奖励会导致模型学会"看起来正确"而非"真正正确"。

Step 2组采样(Group Sampling)

对每道训练题,用当前策略 $\pi_\theta$ 采样 $G$(通常8~16)条完整输出。这与PPO的单步token级采样不同——RLVR在序列级别操作,每条输出是完整的推理链+答案。采样温度通常设为0.7~1.0以保证多样性。为什么要采样多条?因为单条输出的奖励信号方差极大(一道题可能全对或全错),组内对比能有效降低方差,提供更稳定的梯度方向。

Step 3可验证奖励计算与优势归一化

将每条输出的最终答案提取出来,送入验证器(数学用SymPy/Mathematica,代码用沙箱执行)获得奖励 $r_i$。然后在组内做均值-方差归一化得到 $\hat{A}_i$。实现细节:答案提取需要鲁棒的正则表达式或专用解析器,这往往是工程上最容易出错的环节;验证器需要在沙箱中运行以防代码执行安全问题;超时的输出(推理链过长)通常赋予 $r=0$。

Step 4策略梯度更新与KL约束

用归一化优势 $\hat{A}_i$ 加权每条输出中每个token的对数概率,计算GRPO目标并反向传播。同时计算当前策略与参考策略(SFT模型)的token级KL散度作为惩罚项。关键工程细节:①只对"答案部分"的token计算损失还是对整个推理链计算,直接影响推理链长度的涌现;②KL系数 $\beta$ 过大会导致模型无法探索,过小会导致策略崩溃(collapse);③通常每隔若干步将参考模型更新为当前策略(迭代式RLVR)。

Step 5涌现行为的观察与课程设计

随着训练进行,模型会自发涌现"等等,让我重新检查"类的自我反思行为,推理链长度也会自适应增长。这不是显式设计的,而是因为更长的正确推理链获得更高奖励。课程学习(从简单题到难题)和难度采样(优先选择组内有对有错的题,即"有学习信号"的题)是提升训练效率的关键工程手段。

长远价值

RLVR已成为2025年最重要的LLM训练范式之一。DeepSeek-R1、Qwen-QwQ、Kimi k1.5等顶级推理模型均采用此路线。其核心价值在于:①将训练成本从"人工标注瓶颈"解放出来;②在数学竞赛(AIME、AMC)和代码生成(HumanEval、LiveCodeBench)上实现了远超SFT的性能;③证明了稀疏奖励足以驱动复杂认知能力涌现,为AI自主学习提供了新的理论基础。Google的Gemini 2.0 Flash Thinking和OpenAI的o系列模型也在类似路线上探索。

前沿动向

当前核心开放问题:①RLVR能否迁移到"不可验证"领域(创意写作、开放问答)?②奖励稀疏性与推理链长度的最优平衡点在哪里?③如何防止"推理链虚假延长"(模型学会写长但无效的推理)?④多步骤可验证奖励(过程级RLVR)是否能进一步提升性能?⑤本文[0]提出的自蒸馏+RLVR混合范式能否兼得密集信号与可验证性的优点?

工程·思维 第二讲

LLM技能退化认知机制

就像一直用计算器的人,加减法还是"懂"的,但真让他心算一道三位数乘法,才发现那个能力已经悄悄锈掉了。
历史演进

工具辅助导致人类技能退化的担忧,并非AI时代的新问题——其根源在于人类认知系统对"努力"的天然规避,以及大脑可塑性对使用频率的高度敏感。

1970s
认知负荷理论的奠基

澳大利亚心理学家John Sweller在研究数学问题解决时发现,人类工作记忆容量极为有限(Miller定律:7±2个组块),当外部工具承担认知负荷时,大脑会重新分配神经资源。这一理论最初用于教学设计,但其核心洞察——"外包认知任务会减少对应神经回路的激活"——为后来的技能退化研究奠定了基础。

1990s–2000s
"认知卸载"概念的系统化

哲学家Andy Clark和David Chalmers在1998年提出"延展心智"(Extended Mind)理论:人类认知天然地将计算任务外包给环境(笔记本、计算器、GPS)。心理学家Rolf Reber随后区分了"良性认知卸载"(释放资源用于更高阶思维)和"有害认知卸载"(导致底层技能萎缩)。GPS导航研究(Dahmani & Bohbot, 2020, Nature Communications)提供了直接证据:长期依赖GPS的人海马体空间导航相关区域灰质密度显著降低,且这一变化在停止使用GPS后部分可逆。

2011
"谷歌效应"与记忆外包

哈佛心理学家Betsy Sparrow在Science发表研究,发现人们在知道信息可以被搜索到时,会减少对信息本身的记忆努力,转而记忆"在哪里能找到信息"(元记忆)。这被称为"谷歌效应"(Google Effect)。关键发现:这不是记忆能力下降,而是记忆策略的主动转变——大脑在优化,但优化方向可能与长期技能发展相悖。

2011
合意困难理论(Desirable Difficulties)

认知心理学家Robert Bjork系统提出"合意困难"理论:学习过程中的困难和挫折(间隔重复、交错练习、测试效应)反而促进长期记忆巩固,而流畅感(fluency)是学习的假象。这一理论直接解释了为什么LLM辅助编程"感觉很顺"却可能导致技能退化——流畅的外部辅助消除了对长期学习至关重要的"必要挣扎"。

2023–2025
AI辅助编程的实证研究

随着GitHub Copilot和ChatGPT的普及,多项研究开始量化AI辅助对编程技能的影响。MIT和微软的联合研究(2023)发现Copilot显著提升短期生产力,但程序员对代码逻辑的理解深度下降。更值得警惕的是"元认知幻觉":使用者高估自己的理解程度,因为他们能读懂AI生成的代码,却无法独立写出来——这与"识别"和"回忆"在认知上的根本差异有关。

核心思想
长期将认知任务外包给AI工具,会导致大脑对应神经回路因缺乏激活而萎缩,同时消除了对技能巩固至关重要的"必要挣扎",造成能力幻觉——你以为自己会,但独立操作时才发现已经不会了。
数学结构

N/A(核心机制为认知科学原理,无核心数学公式,但可用信息论视角理解) 从信息论角度,技能的形成可以理解为将外部信息压缩为内部表示的过程。设任务复杂度为 $H(T)$(信息熵),工具承担的部分为 $H(T|{\text{tool}})$,则大脑实际处理的信息量为: $$I_{\text{brain}} = H(T) - H(T|\text{tool})$$ 当工具能力趋于完美时,$H(T|\text{tool}) \to H(T)$,$I_{\text{brain}} \to 0$。大脑处理的信息量趋零,对应神经回路的激活频率趋零,根据Hebb学习律("一起激活的神经元连接在一起"),突触连接强度随时间衰减。这不是比喻,而是有神经生物学基础的机制。

工作机制

技能退化是一个多层次的认知-神经过程,从"感觉还行"到"真的不会了"往往需要数月,且退化过程本身难以被当事人察觉。

Step 1认知卸载的启动:阻力最小路径

人类大脑的默认模式是最小化即时认知努力。当LLM能在3秒内给出可用代码时,大脑会迅速建立"遇到问题→询问LLM"的条件反射回路,因为这条路径的即时奖励(问题解决)远大于"自己思考"的延迟奖励(技能提升)。工程师需要意识到:这不是意志力问题,而是神经系统的默认优化方向。对抗它需要主动的元认知干预,而非简单的"我要少用AI"的决心。

Step 2元认知幻觉的形成:识别≠回忆

阅读AI生成的代码并理解它(识别,Recognition)和从空白页面独立写出代码(回忆,Recall)在认知上是完全不同的过程,激活的神经回路也不同。长期使用LLM的工程师会积累大量"识别经验",这会产生强烈的能力幻觉——因为读懂代码的流畅感被误解为"我会写这个"。检验方法:关掉所有工具,在空白编辑器中独立完成一个你"以为自己会"的任务,结果往往令人震惊。

Step 3合意困难的消失:学习信号被截断

Bjork的研究表明,错误、卡顿、反复尝试是长期记忆巩固的必要条件,而非需要消除的障碍。当LLM立即提供正确答案时,这些"合意困难"被完全消除。从神经可塑性角度:错误触发预测误差信号(多巴胺系统),驱动突触权重更新;而直接获得正确答案不产生预测误差,因此不触发学习机制。LLM的高效性恰恰是其对学习有害的原因

Step 4退化的不对称性:快速退化,缓慢恢复

神经可塑性的一个关键特征是退化速度远快于建立速度。研究表明,运动技能在停止练习后数周内开始显著退化,认知技能(如编程、数学推导)的退化时间线类似。更糟糕的是,退化通常从"最近习得的、练习最少的"技能开始,而这些往往是工程师职业发展最需要的前沿技能。恢复需要刻意练习(Deliberate Practice),且需要接受短期生产力下降的代价。

Step 5工程师的主动干预策略

基于上述机制,有效的干预策略必须针对每个退化环节:①时间分区:设定"无AI时段"(如每天上午2小时),专门用于独立解决问题,保持神经回路激活;②先尝试后查询:规定自己独立思考至少15分钟再使用LLM,这段挣扎时间是学习发生的窗口;③主动回忆验证:使用LLM后,关闭对话,尝试独立重现解决方案,检验是否真正理解;④输出型学习:写技术博客、给同事讲解、做代码Review,这些"输出"行为强制激活回忆回路;⑤错误日志:记录自己独立犯的错误,这些错误是最宝贵的学习信号,不应被LLM的即时纠错消除。

长远价值

这一认知框架对音视频AI工程师尤为重要:信号处理基础(傅里叶变换、滤波器设计)、CUDA优化、模型调试等深度技能,一旦退化极难快速恢复,而这些恰恰是区分高级工程师和普通工程师的核心壁垒。Google、Meta等公司已开始在面试中加入"无工具编程"环节,正是对这一问题的制度性回应。理解退化机制,才能设计出真正有效的学习策略,而非依赖意志力。

前沿动向

当前研究热点:①AI辅助对不同经验层级工程师的差异化影响(初级工程师退化更快还是更慢?);②如何设计"有合意困难的AI辅助工具"(AI故意不给完整答案,只给提示);③神经影像学研究AI使用对大脑结构的长期影响;④组织层面如何设计工程师成长体系以对抗工具依赖;⑤"AI原生"工程师(从学习起就用AI)与传统工程师的能力结构差异。

往期讲解档案 39 个知识点

2026年04月06日音素可解释说话人验证Phoneme-aware Speaker VerificationInterpretable BiometricsLocal Acoustic Evidence
2026年04月06日音频幻觉攻击评估Hallucination AttackAudio Language Model ReliabilityAdversarial Probing
2026年04月05日潜在空间推理原理Latent Space ReasoningContinuous RepresentationToken-Free Inference
2026年04月05日mRNA模型极低成本训练Biology Foundation ModelCross-Species TransferLow-Budget Training
2026年04月04日编码器-解码器TTS原理Encoder-Decoder TTSText ConditioningPositional Capacity
2026年04月04日大模型训练的MXFP8工程MXFP8MicroscalingMixed Precision Training
2026年04月03日在线知识蒸馏原理Online DistillationKnowledge TransferStudent-Teacher
2026年04月03日MoE专家并行调度工程Expert ParallelismMixture of ExpertsAll-to-All Communication
2026年04月02日波形潜空间扩散TTSwaveform latent diffusionnon-autoregressive TTSlatent space acoustic modeling
2026年04月02日波形隐空间扩散原理waveform latent spacediffusion TTSVAE audio codec
2026年04月02日LLM量化权重工程weight quantizationLLM compression4-bit quantization
2026年04月02日扩散语言模型离散生成Discrete DiffusionMasked Diffusion Language ModelNon-autoregressive TTS
2026年04月02日LLM后训练库工程演进RLHF engineeringPPO training stabilityreward hacking
2026年04月02日声学证据瓶颈原理Audio Evidence BottleneckAcoustic GroundingAudio Language Model
2026年04月02日状态空间模型音频建模State Space ModelMambaSelective Scan
2026年04月02日实时语音增强工程选型Real-time Speech EnhancementNoise SuppressionStreaming Inference
2026年04月02日对话上下文压缩原理Context CompressionAbstractive SummarizationCross-Attention Fusion
2026年04月02日说话人匿名化工程Speaker AnonymizationVoice ConversionStreaming Inference
2026年04月02日视听语音识别融合Audio-Visual Speech RecognitionLip ReadingViseme
2026年04月02日GPU训练吞吐加速工程MXFP8MoE TrainingExpert Parallelism
2026年04月01日熵驱动多样性生成diversity samplingtypicality biasrepulsion in latent space
2026年04月01日说话人分割工程选型speaker diarizationbenchmark methodologystreaming ASR pipeline
2026年03月31日转向检测联合建模turn-taking detectionvoice activity detectionjoint acoustic-linguistic modeling
2026年03月31日基准测试的系统性失效benchmark contaminationevaluation validityLLM judge reliability
2026年03月31日扩散模型声学生成diffusion modelscore matchingstochastic differential equation
2026年03月31日TTS开源生态竞争open-weight TTStime-to-first-audiomultilingual speech synthesis
2026年03月30日注意力机制变体演进Multi-Head AttentionGrouped Query AttentionMulti-head Latent Attention
2026年03月30日设备端语音推理架构on-device inferenceExecuTorchvoice agent pipeline
2026年03月29日混合自回归流匹配TTSautoregressive semantic tokensflow matching acoustic decoderhybrid TTS architecture
2026年03月29日NCCL超时诊断方法论NCCL watchdog timeoutdistributed training debuggingcollective communication
2026年03月29日混合架构音频表示Mambastate space modelaudio representation learning
2026年03月29日DeepSeek预训练加速工程MXFP8 trainingexpert parallelismMoE pretraining
2026年03月27日说话人验证度量学习speaker verificationmetric learningcurriculum learning
2026年03月27日MX浮点格式加速训练MXFP8microscalingmixed precision training
2026年03月26日TTS模型极限压缩model compressionknowledge distillationTTS on-device
2026年03月26日小模型极限压缩哲学model compressionknowledge distillationquantization
2026年03月25日流匹配生成原理flow matchingrectified flowODE
2026年03月25日神经音频编解码器neural audio codecresidual vector quantizationEnCodec
2026年03月25日推测解码加速推理speculative decodingdraft modeltoken verification