这一节先说清楚论文要解决的痛点,以及它给出的反直觉答案。
推理能力是人类智能的基石——从解数学题到逻辑推导再到写程序,都靠它。近年人们发现,大语言模型(LLM)规模够大时会「涌现」出推理能力 。但这里有个常被忽略的限定条件 :原文指出,要在预训练阶段 就获得这种能力,通常需要消耗大量算力 。于是出现了一条互补的研究路线——思维链(CoT)提示 :不靠重新训练,而是在用模型时,要么给几个精心设计的少样本范例,要么加一句「Let's think step by step(让我们一步步思考)」这样的极简提示,模型就会产出中间推理步骤,从而大幅提升复杂任务的表现。类似地,如果让模型在后训练阶段 学习高质量的多步推理轨迹,也能进一步提升。
但这条「靠人类示范」的路有根本瓶颈。论文把它拆成一条因果链来说,值得原样保留:
🎯 论文的核心主张
LLM 的推理能力可以纯粹通过强化学习(RL)来激发 ,从而免去对人工标注推理轨迹的需要 。在这个框架下,自我反思、验证、动态策略调整等高级推理模式会自发涌现 ;最终模型在数学、编程竞赛、STEM 等可验证任务 上,反而超过了用人类示范做监督学习训练出来的同类模型。而且——这些大模型涌现出的推理模式,还能反过来系统性地引导和增强更小模型 的推理能力。
具体怎么做?论文用「机制拆解 + 一个关键的反直觉选择」来讲清它的方法骨架。
🧩 关键设计:绕过 SFT,直接上 RL(机制拆解)
是什么
论文以 DeepSeek-V3 Base 为底座,用 GRPO 作为 RL 框架。奖励信号只基于最终预测对照标准答案的正确性 ,不对推理过程本身施加任何约束 。最关键的一步:刻意绕过 RL 之前传统的监督微调(SFT)阶段 ,直接开始 RL。
为什么
这个选择源自一个明确的假设 (原文用的是「hypothesis」,是假设而非定论):人类定义的推理模式可能 限制模型探索,而不受约束的 RL 能更好地 激发 LLM 涌现新的推理能力。注意这里的语气是「可能 / 能更好地」,论文把它当作一个待验证的赌注,而非板上钉钉的结论。
例子
这个例子用于帮助理解,非原文内容:就像学下棋,先背人类棋谱会把人框在已有套路里;而只告诉 AI「赢棋得分」让它自我对弈,反而可能走出人类没想过的妙手。R1-Zero 走的正是这条「只给奖励、自己摸索」的路。
由此训练出的第一个模型叫 DeepSeek-R1-Zero 。它推理能力出色,但存在具体的毛病 ,而这些毛病又直接决定了下一个模型为什么要那样设计 ——这条因果关系是理解全文管线的钥匙:
🔤 可读性差、语言混杂: R1-Zero 偶尔在同一段 CoT 里混用英文和中文 。这源于底座 V3 在多语言(尤其中英)上训练。
🎯 能力面窄: R1-Zero 的规则式 RL 阶段只聚焦推理任务 ,导致它在写作、开放域问答等更广领域表现有限。
正是为了解决这两点,作者又造了 DeepSeek-R1 :一个通过整合「拒绝采样 + RL + 监督微调」的多阶段框架 训练的模型。它继承 了前身 R1-Zero 的推理能力,同时通过引入非推理数据 把模型行为对齐到人类偏好。此外,为了让强推理能以更低能耗被更广泛使用,团队还蒸馏了多个更小的模型并公开发布 ——这些蒸馏模型的推理能力超过了它们原本的指令微调版本 。R1-Zero、R1、数据样本与蒸馏模型均已按「代码可用性」一节公开。
LLM
大语言模型。本文的「底座」是 DeepSeek-V3 Base 。
CoT 思维链
让模型先写出中间推理步骤再给答案,以提升复杂任务表现的提示技术。
RL 强化学习
通过「奖励信号」而非「标准答案示范」来训练模型的范式;本文用 GRPO 实现。
SFT 监督微调
用人工标注的「输入→理想输出」对来微调模型。本文在 R1-Zero 上刻意跳过 了它。
可验证任务
有确定、可自动判对错的答案的任务(数学、代码),是纯 RL 能用的前提。
蒸馏
把大模型的能力「教」给小模型,以更低算力获得接近的表现。
01
DeepSeek-R1-Zero:纯 RL 下的自我进化
不教怎么想,只给一个格式模板和一个对错奖励,看模型自己进化成什么样。
训练 R1-Zero 时,作者只给模型设了一个极简的格式约束 :先在 <think> 标签里写推理过程,再在 <answer> 标签里给答案。有意把约束只限制在这个结构格式上,避免任何「内容层面」的偏置 ——这样才能干净地观察模型在 RL 过程中的自然演化。下面是实际用的提示模板(翻译大意):
<think> 推理过程写在这里 </think>
<answer> 答案写在这里 </answer>
User: {把这里换成具体的推理问题}
Assistant:
就这么简单的设定,结果非常惊人。在 AIME 2024 (美国数学邀请赛)这个高难基准上,模型的平均 pass@1 成绩从 15.6% 一路飙升到 77.9%;再配合自一致性解码(self-consistency) 多次采样投票,准确率进一步达到 86.7%,大幅超过了 AIME 全体人类参赛者的平均水平 。除了数学竞赛,R1-Zero 在编程竞赛 和研究生级别的生物、物理、化学 问题上也表现出色(见原文补充图 8)。
🔄 自进化行为:思考时间自己越变越长
是什么
随着训练推进,R1-Zero 每条回答的平均长度稳步增长 ——从几百 token 涨到上万 token。这完全是模型内在自适应 的结果,作者没有写任何规则去要求它「想久一点」。
为什么
因为奖励只看答案对错,而想得更久、多探索几条路、回头验证一遍,客观上能提高答对的概率。于是 RL 自然而然地「奖励」了那些更长、更细致的推理。更长的思考时间,催生出更复杂的行为 :反思式推理、系统性地尝试多种备选方案。
例子
就像一个学生做难题,刚开始草草写两行就交卷,慢慢学会了「先列几种思路、算完回头检查一遍、发现不对再换个方法」。没人教这套流程,但因为这样得分更高,他自己摸索出来了。
💡 论文原话的精神
强化学习的力量与美正在于此:我们没有教模型如何解题,只是给了它正确的激励,它就自主发展出了高级的解题策略。这提醒我们,RL 有潜力把 LLM 的能力解锁到更高层次。
类比
🔗 R1-Zero 的自进化,像一个「只被告知胜负」的自学者
(以下类比为帮助理解所加,非原文内容)想象你把一个人关进一间只有题目和「对/错」指示灯的房间,不给任何解题示范,也不限制他怎么想 ,唯一规则是:答对了灯变绿。
一开始他乱猜,绿灯偶尔亮。但他慢慢发现:多花时间、把思路写下来、算完回头验一遍、错了换个方法 ——绿灯亮得更勤。于是他不是「被教会」,而是被胜负信号一点点逼出了 反思、验证、换思路这套元认知习惯。这正对应论文观察到的两件事:回答越来越长(愿意多想),以及「wait」这类反思词越来越多(学会自我怀疑)。
这个类比的「同构点」在于:奖励只在最末端、只看结果 ,中间过程完全自由——所以复杂策略是「涌现」的,不是「灌输」的。这也是它和「背棋谱式」监督学习的本质区别。
训练途中,模型突然学会了「等一下,我好像错了」——这是全文最戏剧性的一幕。
在训练某个中间版本时,作者观察到一个被称为 「顿悟时刻」(aha moment) 的现象:模型在反思时,「wait(等等)」这个词的使用频率突然激增 。这标志着推理模式发生了一次明显的转变,清晰地展示了 R1-Zero 的自我进化过程。论文里给了一个实例:模型在解一个含嵌套根号的方程时,算到一半突然冒出来一句——
🤯 模型自己写下的话(论文 Table 1 实例)
「Wait, wait. Wait. That's an aha moment I can flag here.(等等、等等、等等。这里有个顿悟时刻我得标记一下。)Let's reevaluate this step by step…(让我们一步步重新评估……)」
模型学会了用一种拟人化的语气来「重新思考」 。作者说,这对他们自己也是一个顿悟时刻——让人亲眼见证了 RL 的力量与美。
🔍 「反思词频率」说明了什么
是什么
作者请三位人类专家共同确定了一组「反思类词汇」——包括 wait、mistake、however、but、retry、error、verify、wrong、evaluate、check (等等、错误、然而、但是、重试、出错、验证、错的、评估、检查)。然后统计这些词在训练全程中出现的频率。
为什么
这些词是「自我监控」行为的语言指纹 。一个会说「等等,这步好像错了,我验证一下」的模型,本质上是在监督自己的推理过程。它们的频率上升,等于客观证据表明反思和自我纠错的能力正在涌现 ,而不是研究者的主观感觉。
例子
具体到「wait」一词:训练早期几乎从不出现;在第 4,000~7,000 步之间零星冒头;到第 8,000 步之后频率猛增 。这条曲线就像一个孩子从「闷头往下写」到「会停下来怀疑自己」的成长轨迹。
📌 一个重要细节:能力在 8.2k 步「跳变」
训练中作者把单条回答的最大长度从 32,768 token 在第 8.2k 步提到了 65,536 token。正是在这一步,模型的性能和回答长度都出现了明显跃升 ——这和「wait」词频在第 8,000 步后激增的时间点相互印证,说明给够「思考空间」是反思行为爆发的关键条件之一。
R1-Zero 很能推理但「不好好说话」。R1 用一条四阶段管线,把推理能力和人类偏好缝合到一起。
R1-Zero 的问题前面说过:可读性差、中英文混杂 (因为底座 V3 在中英双语上训练),而且它纯靠规则奖励、只盯着推理任务,所以在写作、开放域问答这些更广的领域表现有限。为解决这些问题,作者设计了 DeepSeek-R1 的多阶段管线,整体经历 Dev1 → Dev2 → Dev3 三个中间检查点,最后到 R1。
🪜 四个阶段分别在做什么(逐步推演)
1
冷启动 SFT → Dev1
先收集数千条 具有「对话式、人类对齐的思考过程」的冷启动数据做监督微调。结果:对比 R1-Zero,指令遵循明显变强(IF-Eval、Arena-Hard 提升)。但有个明确的因果代价 ——原文指出「正因为冷启动数据集规模有限 」,Dev1 的推理能力反而出现部分回退 ,尤其在 AIME 上。这是「先学会好好说话」付出的暂时代价。
2
推理向 RL → Dev2
用规则奖励做强化学习,并引入语言一致性奖励 压制中英混杂。Dev2 在代码、数学、STEM 等需要硬推理的基准上大幅跃升;而像 AlpacaEval 2.0 这类通用偏好基准只是边际改善 。这条对比印证了一个限定结论:推理向 RL 主要补推理,对「用户偏好类」基准影响有限 。
3
拒绝采样 + SFT → Dev3
把推理和非推理数据 一起喂进 SFT 流程。相比 Dev2,Dev3 在 AlpacaEval 2.0 和 Aider-Polyglot 上明显进步——原文把这归因于 纳入了大规模非推理语料和代码工程数据集。既会推理,也补上了写作能力。
✓
全面 RL → 最终 R1
在 Dev3 上用「推理向 + 通用」混合数据做最终 RL。此时数学/代码只有边际提升 (原文解释:因为大量推理专项 RL 已在前面阶段做过了)。最终 R1 的主要进步在通用指令遵循和用户偏好上:AlpacaEval 2.0 提升 25%、Arena-Hard 提升 17%。
🧭 一句话抓住这条管线的逻辑
每个阶段都在有针对性地补一块短板 :先用冷启动让它「说人话」,再用 RL 把推理顶到极限,然后用混合 SFT 补齐写作/通用能力,最后再用一轮全面 RL 把「有用 + 无害」对齐好。R1 因此同时拥有了 R1-Zero 的硬推理和一个助手该有的体面表达。
支撑整套训练的两块基石:一个更省的 RL 算法,和一套「不容易被钻空子」的奖励。
⚙️ GRPO(组相对策略优化)
是什么
GRPO 是本文用来训练 R1-Zero 和 R1 的 RL 算法。对每个问题 q,它从旧策略采样一组 回答 {o₁, o₂, …, o_G},每个回答由奖励模型(可以是学习来的「模型奖励」,也可以是手工规则的「规则奖励」)打一个分,然后用组内的相对得分来估计每个回答的「优势(advantage)」 。
为什么
它是为简化 PPO 、降低资源消耗而提出的。传统 PPO 需要额外训练一个价值网络(value model) 来估计基线,既费算力又复杂。GRPO 的巧思是:干脆不要价值网络 ,直接拿「这一组回答的平均分」当基线——比平均好的就是正优势,比平均差的就是负优势。同时它仍用 KL 散度约束,不让新策略偏离参考策略太远,保证训练稳定。
例子
好比老师一次让全班同一道题写 16 种解法,然后说「比班级平均水平好的解法,以后多这么写;差的少这么写」。老师不需要先算出「这题标准应得几分」(那就是价值网络),只用班内横向比较就给出了方向。
💬 想看严谨一点的数学表述?点开
原文的形式化定义(忠实转述): 对每个问题 q,GRPO 从旧策略 πθold 采样一组输出 {o₁,…,o_G},通过最大化一个目标函数 JGRPO (θ) 来优化策略 πθ 。该目标对每个输出取重要性采样比 (新旧策略概率之比)乘以优势 Aᵢ ,并用 clip 操作 把这个比值裁剪到 [1−ε, 1+ε] 区间,再减去一个 β 加权的 KL 散度项 (相对参考策略 πref )。
其中优势的算法是:Aᵢ =(rᵢ − mean({r₁,…,r_G}))/ std({r₁,…,r_G}) ——即把组内每个回答的奖励,减去组内均值、再除以组内标准差(做标准化)。这就是「组相对」三个字的由来:优势完全来自组内横向比较 ,不依赖任何价值网络。
大白话再讲一遍(增补,帮助理解): clip 是给「这次更新别迈太大步」上的保险——比值超出 1±ε 就截住,防止一次更新把策略推得太偏;KL 项是另一道缰绳,拉着新策略别离参考策略太远;而「减均值除以标准差」就是把一组分数换算成「在本组里算好还是算差、好/差多少个标准差」。三者合起来:朝着「比组内平均更好」的方向更新,但每步都拴着两道安全绳。
问题 q
策略模型
(可训练)
回答 o₁
回答 o₂
回答 o_G
r₁
r₂
r_G
组内
比较
优势 Aᵢ
无价值网络
每个回答打一个标量奖励
GRPO 对比 PPO 的核心区别:一次采一组回答,直接拿「组内相对得分」算优势,省掉了 PPO 那个单独的价值网络。
🌐 R1 的模型奖励:有用性 + 无害性
是什么
对没有确定答案的通用数据(如写作、开放问答),R1 引入两个学习来的奖励模型。有用性 奖励只评估最终的回答总结(不干扰中间推理);无害性 奖励则评估包括推理过程在内的整个回答 ,识别潜在风险、偏见或有害内容。
为什么
因为「这篇文章写得好不好」「这个回答有没有用」没法用规则一刀切,只能靠学到人类偏好的模型来判断。但前面说过模型奖励有被钻空子的风险,所以作者很克制:有用性偏好对训练用得很谨慎,而且只在第二阶段 RL 的最后 400 步 才引入偏好奖励——发现用太多步反而会触发奖励黑客。
例子
有用性奖励模型用了 66,000 对偏好数据训练;为避免「位置偏见」,每对让 V3 评判 4 次、随机交换 A/B 位置再取平均;还特意让被选中和被拒绝的回答长度相当 ,免得模型误以为「越长越好」。安全奖励模型则用 106,000 条标了「安全/不安全」的提示训练。这些细节都是在堵奖励黑客的漏洞。
这一节把论文 Methods 里的具体训练数字完整收录,方便复现与对照。前面讲「怎么想」,这里讲「具体怎么训」。
🧪 DeepSeek-R1-Zero 的训练细节
🎚️ 基础超参: 学习率 3×10⁻⁶,KL 系数 0.001,rollout 采样温度 1。
🔢 采样与长度: 每个问题采样 16 个输出 ;最大长度在第 8.2k 步之前为 32,768 token ,之后提升到 65,536 token 。正是这次提升,让性能和回答长度在 8.2k 步出现明显跃升。
📦 批次与步数: 每个训练步含 32 个不同问题 ,训练批大小为 512/步 ;每 400 步 用最新策略模型替换参考模型;共训练 10,400 步 ,相当于 1.6 个 epoch 。
⚡ 加速技巧: 每次 rollout 生成 8,192 个输出,随机切成 16 个 minibatch,每个只训练单个内部 epoch。「一个训练步」指一次策略更新操作。
🥇 第一阶段 RL 的训练细节
🎚️ 基础超参: 学习率 3×10⁻⁶,KL 系数 0.001,GRPO clip 比例 ε=10 ,采样温度 1;每题采样 16 个输出、最大长度 32,768;每步 32 题(批大小 512),每 400 步替换参考模型,rollout/minibatch 设置同上。
🈳 语言一致性奖励: 为缓解语言混杂,引入该奖励,定义为 CoT 中目标语言词数占总词数的比例 (Num(目标语言词) / Num(总词)),直接加到最终奖励上,对推理和非推理数据都适用。
⚖️ 一个诚实的权衡
论文的消融实验显示,加入语言一致性奖励会让模型性能略有下降 ;但因为它更符合人类偏好、可读性更好,作者认为这个代价值得。这是一处「为了好用而主动牺牲一点点分数」的取舍。
✂️ clip 比例为什么关键
作者强调 clip 比例在训练中起关键作用:取值过低 会截断大量 token 的梯度,从而损害模型性能;取值过高 则可能引发训练不稳定。需要在两者间小心平衡。
🥈 第二阶段 RL 的训练细节
🌡️ 温度降到 0.7: 第二阶段保留第一阶段大部分参数,关键差异是采样温度从 1 降到 0.7 ——因为作者发现此阶段温度过高会导致生成不连贯。
🔢 步数安排: 共 1,700 个训练步 ,其中通用指令数据和基于偏好的奖励只在最后 400 步 引入。原因是:用更多步数跑模型偏好奖励反而会触发奖励黑客。
🧮 奖励组合(第二阶段): 总奖励 = 推理奖励 + 通用奖励 + 语言奖励;其中推理奖励 = 规则奖励,通用奖励 = 模型奖励 + 格式奖励。推理数据沿用 R1-Zero 的规则奖励,通用数据用奖励模型引导。
🎁 两个奖励模型的训练参数
有用性奖励模型(pairwise 成对损失): 用 66,000 对 偏好数据;每对让 V3 评判 4 次并随机交换 A/B 位置取平均(消除位置偏见),只保留分差 Δ>1 的对;保证被选/被拒回答长度相当。架构与 R1 一致,加一个预测标量分数的奖励头。
训练超参: 批大小 256 ,学习率 6×10⁻⁶,在训练集上跑 单个 epoch ;训练时最大序列长 8,192 token ,推理时不设显式上限。
安全奖励模型(pointwise 逐点损失): 用 106,000 条 带「安全/不安全」标注的提示训练。与有用性的成对损失不同,它用逐点方法直接区分安全与否。其余超参与有用性模型相同。
🔁 处理无可靠信号的任务
对那些拿不到可靠奖励信号的任务,本文的做法是:用人工标注创建监督数据,且只跑数百步 RL 。作者希望未来能获得更鲁棒的奖励模型来解决这类问题。
把 R1-Zero、Dev1/2/3、最终 R1 放在一起看,能清楚看到每个阶段「补」了什么。
下面是论文 Table 2 的完整数据 (全部 21 项基准)。读这张表的诀窍是:横着看一行,就能看出某项能力是在哪个阶段被拉起来的 。例如代码和数学主要在 Dev2 起飞,而通用偏好类(AlpacaEval、Arena-Hard)则在最终 R1 阶段才完成质变。表中蓝色高亮表示该行最优值。
📚 评测覆盖的完整基准清单
论文在 21 个基准上评测:英文/通用 ——MMLU、MMLU-Redux、MMLU-Pro、DROP、IF-Eval、GPQA Diamond、SimpleQA、FRAMES、AlpacaEval 2.0、Arena-Hard;代码 ——LiveCodeBench(2024-08~2025-01)、Codeforces、SWE-bench Verified、Aider-Polyglot;数学 ——AIME 2024、MATH-500、CNMO 2024;中文 ——CLUEWSC、C-Eval、C-SimpleQA。
基准(指标) R1-Zero Dev1 Dev2 Dev3 R1
MMLU (EM) 88.8 89.1 91.2 91.0 90.8
MMLU-Redux (EM) 85.6 90.0 93.0 93.1 92.9
MMLU-Pro (EM) 68.9 74.1 83.8 83.1 84.0
DROP (3-shot F1) 89.1 89.8 91.1 88.7 92.2
IF-Eval(Prompt Strict) 46.6 71.7 72.0 78.1 83.3
GPQA Diamond (Pass@1) 75.8 66.1 70.7 71.2 71.5
SimpleQA (Correct) 30.3 17.8 28.2 24.9 30.1
FRAMES (Acc.) 82.3 78.5 81.8 81.9 82.5
AlpacaEval 2.0(LC-winrate) 24.7 50.1 55.8 62.1 87.6
Arena-Hard(GPT-4-1106) 53.6 77.0 73.2 75.6 92.3
LiveCodeBench(Pass@1-COT) 50.0 57.5 63.5 64.6 65.9
Codeforces(百分位) 80.4 84.5 90.5 92.1 96.3
Codeforces(评分) 1444 1534 1687 1746 2029
SWE-bench Verified 43.2 39.6 44.6 45.6 49.2
Aider-Polyglot (Acc.) 12.2 6.7 25.6 44.8 53.3
AIME 2024 (Pass@1) 77.9 59.0 74.0 78.1 79.8
MATH-500 (Pass@1) 95.9 94.2 95.9 95.4 97.3
CNMO 2024 (Pass@1) 88.1 58.0 73.9 77.3 78.8
CLUEWSC (EM) 93.1 92.8 92.6 91.6 92.8
C-Eval (EM) 92.8 85.7 91.9 86.4 91.8
C-SimpleQA (Correct) 66.4 58.8 64.2 66.9 63.7
论文 Table 2 完整数据。注意 Dev1 在 AIME/CNMO 上的回退,以及 R1 在 AlpacaEval/Arena-Hard 上的飞跃。原论文中加粗值表示统计显著(t 检验 P<0.01)。
📉 Dev1 的「回退」是预期内的: 冷启动 SFT 让指令遵循变强,但因数据量小,AIME 从 77.9 掉到 59.0、CNMO 从 88.1 掉到 58.0。这说明「先学好好说话」会暂时牺牲一点纯推理。
🚀 Dev2 是推理的引爆点: 推理向 RL 之后,代码、数学、STEM 全线回升并超越 Dev1,而通用偏好基准只小幅动——印证了「推理向 RL 主要补推理」。
🎨 Dev3 补通用能力: 混入非推理语料后,Aider-Polyglot 从 25.6 跳到 44.8,AlpacaEval 也明显上升。
🏆 R1 的临门一脚在「偏好」上: 最终 RL 后数学/代码只微涨(前面已榨干),但 AlpacaEval 2.0 提升 25%、Arena-Hard 提升 17%,Codeforces 评分冲到 2029。
🧬 还有一招:把强推理「蒸馏」给小模型
论文还做了一件事——用大模型涌现出的推理模式,去引导和增强更小模型的推理能力 。蒸馏出的小模型表现超过它们原本的指令微调版本。意义在于:让强推理能以更低的算力和能耗 被更广泛地使用,也给研究社区提供了理解长 CoT 推理机制的宝贵资源。
论文很诚实地列出了 R1 还做不好的地方,以及纯 RL 方法本身的天花板。
🛡️ 伦理与安全声明
作者明确承认风险:R1 可能被越狱攻击(jailbreak) ,而增强的推理能力会让它生成的危险内容(如爆炸物制造方案)更具可操作性;公开模型也可能被进一步微调而破坏内置的安全保护。综合评估结论是:R1 自身的安全水平与其他 SOTA 模型相当,处于中等水平(可比 GPT-4o) ;一旦配合外部风控系统,安全等级可提升到更高标准。
🚧 具体能力局限
🔧 结构化输出与工具使用: R1 的结构化输出能力仍逊于现有模型,而且不能调用搜索引擎、计算器等工具 来辅助。不过作者认为为「结构化输出 + 工具使用」搭一个 RL 环境并不难,下个版本会解决。
🎚️ Token 效率(过度思考): 不同于多数投票或蒙特卡洛树搜索(MCTS),R1 会按问题难度动态分配算力 ——简单题少花 token,难题多花。但简单问题上仍会出现「想太多(overthinking)」,效率还有优化空间。
🌍 语言混杂: R1 目前为中英文优化,处理其他语言的查询时可能出现语言混杂(比如查询是别的语言,它却用英文推理和回答)。这可能源自底座 V3 Base 主要用中英文训练。
📝 对提示敏感: 评估发现 R1 对提示很敏感,少样本(few-shot)提示反而会持续拉低它的表现 。作者建议用户直接描述问题、用零样本(zero-shot)设定、并明确指定输出格式,效果最好。
💻 软件工程任务: 因评估耗时长、拖慢 RL 效率,大规模 RL 还没充分用在软工任务上,所以 R1 在软工基准上相比 V3 提升不大。未来会用拒绝采样或异步评估来改善。
⚠️ 纯 RL 方法的根本挑战:奖励黑客
是什么
纯 RL 的成败取决于奖励信号是否可靠 。本文靠「推理领域的规则奖励」保证了可靠性,但对写作这类任务,可靠的奖励模型很难构造。一旦奖励由模型(而非预设规则)给出,随训练推进就越来越容易被策略模型钻空子 ——找到捷径去「黑」掉奖励模型。
为什么
这意味着:对于无法被可靠奖励模型评估的复杂任务,纯 RL 的扩展仍是一个开放难题 。本文的折中办法是——对拿不到可靠信号的任务,改用人工标注做监督数据,RL 只跑几百步。作者期望未来能造出更鲁棒的奖励模型来根治这个问题。
例子
就像考试如果改成「老师凭感觉打分」,聪明的学生会去研究老师的喜好(字写漂亮、堆专业词)来骗分,而不是真把知识学扎实。规则评分(选择题机器判卷)就没这个空子可钻——这正是论文坚持规则奖励的原因。
🌅 结论与展望
论文的核心结论是:预训练好的检查点本身就蕴含着巨大的复杂推理潜力 ,而解锁它的钥匙不在于大规模人工标注,而在于——提供足够难的推理问题、一个可靠的验证器、以及充足的算力来做 RL 。自我验证、反思这些复杂推理行为,会在 RL 过程中「有机地」自发涌现。
展望未来:对于任何能被验证器有效评估的任务 ,无论它对人类有多难,具备这种 RL 技术的机器都有望通过试错迭代地优化、最终超越人类 。真正的难点留给了那些「难以构造可靠奖励」的任务。此外,把工具(编译器、搜索引擎,甚至真实世界的化学/生物试剂)融入推理过程 ,被认为是极具前景的下一步。