强化学习用于语言模型对齐时,奖励信号的粒度决定了模型能否学到"正确的推理方式"而非仅仅"正确的答案"——这一根本矛盾驱动了过程奖励模型(PRM)的诞生。
OpenAI 与 DeepMind 将 RLHF 引入语言模型,最初的奖励模型(Outcome Reward Model, ORM)只对最终输出打分。这在短文本任务上尚可,但在数学推理、多步逻辑等任务中暴露出致命缺陷:模型可以通过"错误路径碰巧得到正确答案"获得高奖励,即所谓的 reward hacking。信用分配(credit assignment)问题在长链推理中被极度放大——一个 20 步推理链中第 3 步的错误,ORM 完全无法感知。
Uesato et al.(DeepMind,2022)在 GSM8K 数学数据集上首次系统对比了 ORM 与 PRM:PRM 对每个中间推理步骤单独打分,实验表明在相同数据量下 PRM 的 Best-of-N 采样精度显著高于 ORM。这项工作奠定了"步骤级监督优于结果级监督"的实证基础,但彼时标注成本极高——每道题的每个推理步骤都需要人工判断正误。
Lightman et al.(OpenAI,2023,NeurIPS spotlight)发布了里程碑式工作:构建 PRM800K 数据集,包含 800K 个人工标注的步骤级正确性标签,训练出 PRM,在 MATH 数据集上将 GPT-4 的 Best-of-1860 精度从 ORM 的 72.4% 提升至 78.2%。更重要的是,他们证明了 PRM 能够检测"貌似合理但实际错误"的推理步骤,这是 ORM 的盲区。
人工标注 PRM 数据的成本制约了其推广。Math-Shepherd(Wang et al., 2024)提出用蒙特卡洛树搜索(MCTS)自动估计每步的"完成正确率"作为软标签,无需人工标注。同年,DeepSeek-R1 和 Qwen-QwQ 等推理模型的成功,将 PRM 作为 RLHF 中的 verifier 推向工业实践,过程奖励信号开始与 GRPO、PPO 等策略优化算法深度结合。
今日论文([32])将 PRM 扩展为"过程奖励代理",用于知识密集型推理的引导——不仅评分,还主动决策何时检索外部知识、何时回溯。这标志着 PRM 从被动评估者演变为主动推理参与者。
设推理链为 $s = (s_1, s_2, \ldots, s_T)$,其中 $s_t$ 为第 $t$ 步推理步骤,$a$ 为最终答案。 ORM 定义奖励为:$R_{\text{ORM}}(s, a) = f(s_1, \ldots, s_T, a) \in \mathbb{R}$,只在序列末端给出单一标量,梯度信号稀疏。 PRM 定义步骤级奖励:$r_t = \text{PRM}(s_1, \ldots, s_t) \in [0, 1]$,表示"前 $t$ 步推理均正确"的概率。总奖励为: $$R_{\text{PRM}}(s) = \prod_{t=1}^{T} r_t \quad \text{或} \quad R_{\text{PRM}}(s) = \min_{t} r_t$$ 乘积形式要求每步都正确(任一步错误则整体奖励趋零),最小值形式更鲁棒。 Math-Shepherd 的软标签估计:对步骤 $s_t$,用 $N$ 次蒙特卡洛完成采样估计: $$\hat{r}_t = \frac{1}{N} \sum_{i=1}^{N} \mathbf{1}[\text{completion}_i \text{ reaches correct answer}]$$ 这等价于估计条件概率 $P(\text{correct} \mid s_1, \ldots, s_t)$,无需人工判断步骤正误,只需验证最终答案(数学题可自动验证)。 Best-of-N 推理时使用:生成 $N$ 条候选推理链,用 PRM 选出得分最高者:$s^* = \arg\max_{s^{(i)}} R_{\text{PRM}}(s^{(i)})$,这是 PRM 最直接的推理时应用,无需修改生成模型本身。
PRM 的工作逻辑是:将语言模型的推理链视为马尔可夫决策过程,在每个状态(已生成步骤)上学习一个价值函数,从而为策略优化提供密集的步骤级信号。
将模型输出按自然边界(换行符、"Step N:"标记、句号等)切分为离散步骤 $s_1, \ldots, s_T$。为什么不用 token 级?因为单个 token 无法承载完整的推理语义,步骤是最小的"语义完整推理单元"。实现细节:OpenAI PRM800K 用换行符分割,Math-Shepherd 用特殊标记 `ки` 标识步骤边界,训练时在每个边界位置插入分类头。
这是 PRM 最核心的工程挑战。人工标注路径:标注者逐步阅读推理链,判断每步是否逻辑正确(不要求计算正确,只要推理方向合理)。自动标注路径(Math-Shepherd):对每个前缀 $(s_1, \ldots, s_t)$,用策略模型续写 $N=8\sim16$ 条完成,统计到达正确答案的比例作为软标签 $\hat{r}_t$。关键设计:自动路径假设"能导向正确答案的步骤是好步骤",这在数学领域成立,但在开放域推理中需要更复杂的验证机制。
PRM 通常以预训练语言模型为骨干,在每个步骤边界位置的最后一个 token 上接二分类头(或回归头):
python # 伪代码:PRM 前向传播 hidden_states = backbone(input_ids) # [B, T_token, D] step_boundary_hidden = hidden_states[:, boundary_positions, :] # [B, N_steps, D] step_scores = classification_head(step_boundary_hidden) # [B, N_steps, 1] loss = BCE(step_scores, step_labels) # 步骤级二元交叉熵为什么用最后一个 token?因果注意力机制使该位置能看到该步骤的全部上下文。训练时通常冻结骨干前几层,只微调后几层和分类头,防止过拟合。
Best-of-N:并行生成 $N$ 条完整推理链,PRM 对每条打分,选最高分。Step-level Beam Search:每步生成 $K$ 个候选续写,PRM 实时剪枝,保留 top-$B$ 条,类似 MCTS 的树搜索。后者计算量更大但精度更高,是 o1/R1 类模型推理时计算扩展(test-time compute scaling)的核心机制。
在 PPO/GRPO 训练中,PRM 替代 ORM 提供 token 级奖励信号:将步骤奖励 $r_t$ 广播到该步骤的所有 token 上,或只在边界 token 处注入奖励。这使策略梯度能够精确传播到导致错误的具体步骤,而非模糊地惩罚整条链。
PRM 是当前推理型大模型(OpenAI o1/o3、DeepSeek-R1、Qwen-QwQ)的核心组件之一,直接支撑了"测试时计算扩展"范式——通过在推理时投入更多计算(而非更大模型)来提升精度。PRM800K 数据集已成为推理评估的标准基准。在代码生成、科学推理、医疗诊断等需要多步逻辑的高风险领域,PRM 提供的步骤级可信度评估具有不可替代的安全价值,预计未来5年将成为所有推理模型的标配组件。
当前核心开放问题:①泛化性:数学领域的 PRM 能否迁移到开放域推理(无法自动验证答案)?②步骤定义模糊性:步骤粒度如何自适应确定?③PRM 自身的幻觉:PRM 可能对错误步骤给出高分(对抗样本)。④计算效率:Step-level Beam Search 的推理成本是 Best-of-N 的数倍,如何在精度与效率间取得平衡?⑤多模态 PRM:图文混合推理链的步骤评估尚无成熟方案。