Nature · Vol 645 · 2025-09-18

DeepSeek-R1:用强化学习激发大模型的推理能力

不再依赖人工标注的推理示范,只用一个「答案对不对」的奖励信号,模型就在强化学习中自己「长出」了反思、验证、换思路这些高级推理行为——这篇论文讲的就是这件事是怎么发生的。

📄 DeepSeek-R1 / R1-Zero 🧠 纯强化学习(无 SFT 冷启动) 🏆 AIME 2024: 15.6% → 77.9% 🔓 MIT 开源 · 含蒸馏小模型
00

核心问题:推理能力,非得靠人「喂」吗?

这一节先说清楚论文要解决的痛点,以及它给出的反直觉答案。

推理能力是人类智能的基石——从解数学题到逻辑推导再到写程序,都靠它。近年人们发现,大语言模型(LLM)规模够大时会「涌现」出推理能力,而 思维链(CoT)提示 又能进一步把这种能力放出来:只要给几个范例,或者加一句「Let's think step by step(让我们一步步思考)」,模型就会先写出中间推理步骤,复杂任务的表现随之大幅提升。

但这条路有个根本瓶颈。无论是 CoT 提示还是后训练阶段学习「高质量多步推理轨迹」,都严重依赖人工标注的推理过程。这带来两个问题:一是人工标注慢、难规模化、还会引入人的认知偏见;二是更要命的——当你逼着模型去模仿人类的思考方式,它的上限就被人类示范钉死了,模型再也探索不到那些「不像人、但可能更好」的推理路径。

🎯 论文的核心主张 LLM 的推理能力可以纯粹通过强化学习(RL)来激发,完全不需要人工标注的推理轨迹。在这个框架下,自我反思、验证、动态调整策略等高级推理模式会「自发涌现」,最终模型在数学、编程竞赛、STEM 等可验证任务上,反而超过了用人类示范做监督学习训练出来的同类模型
🧩 它的关键设计选择:跳过 SFT,直接上 RL
是什么
论文以 DeepSeek-V3 Base 为底座,用 GRPO 作为强化学习框架。奖励信号只看最终答案对不对(对照标准答案),完全不管推理过程长什么样。最关键的是:他们故意跳过了传统的监督微调(SFT)阶段,直接开始 RL 训练。
为什么
背后的假设是:人类定义的推理模式会限制模型探索。一旦先用 SFT 把模型「教成人的样子」,它就被框住了。而不加约束的 RL,反而更能激发出全新的推理能力。这就是整篇论文最大的赌注——少教,甚至不教,只给对的激励。
例子
类比下围棋:与其让 AI 背棋谱(模仿人类棋手),不如只告诉它「赢棋得分」,让它自己左右互搏。AlphaGo Zero 就是这么下出了人类从没想过的「神之一手」。R1-Zero 走的是同一条「只给奖励、自己摸索」的路。

由此训练出的第一个模型叫 DeepSeek-R1-Zero。但它有毛病:可读性差、中英文混着说。于是作者又造了 DeepSeek-R1——在 R1-Zero 的推理能力之上,用多阶段训练把它的行为对齐到人类偏好。此外,团队还把推理能力蒸馏进了几个更小的模型并开源,让低算力、低能耗也能用上强推理。

01

DeepSeek-R1-Zero:纯 RL 下的自我进化

不教怎么想,只给一个格式模板和一个对错奖励,看模型自己进化成什么样。

训练 R1-Zero 时,作者只给模型设了一个极简的格式约束:先在 <think> 标签里写推理过程,再在 <answer> 标签里给答案。除此之外不加任何「内容上」的引导——目的就是干净地观察模型在 RL 过程中的自然演化。下面是实际用的提示模板(翻译大意):

<think> 推理过程写在这里 </think>
<answer> 答案写在这里 </answer>

User: {把这里换成具体的推理问题}
Assistant:

就这么简单的设定,结果非常惊人。在 AIME 2024(美国数学邀请赛)这个高难基准上,模型的平均 pass@1 成绩一路飙升;再配合自一致性解码(self-consistency)多次采样投票,成绩进一步拔高,远远超过了 AIME 所有人类参赛者的平均水平。除了数学,R1-Zero 在编程竞赛和研究生级别的生物、物理、化学问题上同样表现出色。

15.6%
训练初期
AIME pass@1
77.9%
训练后
AIME pass@1
86.7%
配合自一致性解码
(cons@16)
🔄 自进化行为:思考时间自己越变越长
是什么
随着训练推进,R1-Zero 每条回答的平均长度稳步增长——从几百 token 涨到上万 token。这完全是模型内在自适应的结果,作者没有写任何规则去要求它「想久一点」。
为什么
因为奖励只看答案对错,而想得更久、多探索几条路、回头验证一遍,客观上能提高答对的概率。于是 RL 自然而然地「奖励」了那些更长、更细致的推理。更长的思考时间,催生出更复杂的行为:反思式推理、系统性地尝试多种备选方案。
例子
就像一个学生做难题,刚开始草草写两行就交卷,慢慢学会了「先列几种思路、算完回头检查一遍、发现不对再换个方法」。没人教这套流程,但因为这样得分更高,他自己摸索出来了。
问题 q 数学/代码/逻辑 生成更长 CoT 反思·验证·换思路 规则奖励 答案对不对 + 格式 策略更新 GRPO 反复迭代:更新后的模型回去再答下一批问题 ↺
R1-Zero 的自进化闭环:奖励只在末端「卡答案」,中间怎么想完全放开,模型于是自己学会了「想得更久、更细」。
💡 论文原话的精神 强化学习的力量与美正在于此:我们没有教模型如何解题,只是给了它正确的激励,它就自主发展出了高级的解题策略。这提醒我们,RL 有潜力把 LLM 的能力解锁到更高层次。
02

「顿悟时刻」(Aha Moment)

训练途中,模型突然学会了「等一下,我好像错了」——这是全文最戏剧性的一幕。

在训练某个中间版本时,作者观察到一个被称为 「顿悟时刻」(aha moment) 的现象:模型在反思时,「wait(等等)」这个词的使用频率突然激增。这标志着推理模式发生了一次明显的转变,清晰地展示了 R1-Zero 的自我进化过程。论文里给了一个实例:模型在解一个含嵌套根号的方程时,算到一半突然冒出来一句——

🤯 模型自己写下的话(论文 Table 1 实例) 「Wait, wait. Wait. That's an aha moment I can flag here.(等等、等等、等等。这里有个顿悟时刻我得标记一下。)Let's reevaluate this step by step…(让我们一步步重新评估……)」
模型学会了用一种拟人化的语气来「重新思考」。作者说,这对他们自己也是一个顿悟时刻——让人亲眼见证了 RL 的力量与美。
🔍 「反思词频率」说明了什么
是什么
作者请三位人类专家共同确定了一组「反思类词汇」——包括 wait、mistake、however、but、retry、error、verify、wrong、evaluate、check(等等、错误、然而、但是、重试、出错、验证、错的、评估、检查)。然后统计这些词在训练全程中出现的频率。
为什么
这些词是「自我监控」行为的语言指纹。一个会说「等等,这步好像错了,我验证一下」的模型,本质上是在监督自己的推理过程。它们的频率上升,等于客观证据表明反思和自我纠错的能力正在涌现,而不是研究者的主观感觉。
例子
具体到「wait」一词:训练早期几乎从不出现;在第 4,000~7,000 步之间零星冒头;到第 8,000 步之后频率猛增。这条曲线就像一个孩子从「闷头往下写」到「会停下来怀疑自己」的成长轨迹。
📌 一个重要细节:能力在 8.2k 步「跳变」 训练中作者把单条回答的最大长度从 32,768 token 在第 8.2k 步提到了 65,536 token。正是在这一步,模型的性能和回答长度都出现了明显跃升——这和「wait」词频在第 8,000 步后激增的时间点相互印证,说明给够「思考空间」是反思行为爆发的关键条件之一。
03

DeepSeek-R1:多阶段训练管线

R1-Zero 很能推理但「不好好说话」。R1 用一条四阶段管线,把推理能力和人类偏好缝合到一起。

R1-Zero 的问题前面说过:可读性差、中英文混杂(因为底座 V3 在中英双语上训练),而且它纯靠规则奖励、只盯着推理任务,所以在写作、开放域问答这些更广的领域表现有限。为解决这些问题,作者设计了 DeepSeek-R1 的多阶段管线,整体经历 Dev1 → Dev2 → Dev3 三个中间检查点,最后到 R1。

① 冷启动 SFT 数千条人类对齐的 长思维链数据 → Dev1 ② 推理向 RL 规则奖励 + 语言一致性 奖励 → Dev2 ③ 拒绝采样 + SFT 混入非推理 / 写作 / 代码工程数据 → Dev3 ④ 全面 RL 推理+通用混合, 对齐偏好 → R1 解决可读性 · 指令遵循变强 数学/代码/STEM 推理能力大涨 写作 / 通用语言 生成能力补齐 有用性+无害性 最终对齐 每个阶段补一块短板:① 让它好好说话 → ② 强化推理 → ③ 补全通用能力 → ④ 对齐人类偏好
DeepSeek-R1 的四阶段管线。上排是每个阶段做了什么,下排是对应解决的问题。R1 由此「继承」了 R1-Zero 的推理力,又补上了可读性与通用能力。

🪜 四个阶段分别在做什么

🧭 一句话抓住这条管线的逻辑 每个阶段都在有针对性地补一块短板:先用冷启动让它「说人话」,再用 RL 把推理顶到极限,然后用混合 SFT 补齐写作/通用能力,最后再用一轮全面 RL 把「有用 + 无害」对齐好。R1 因此同时拥有了 R1-Zero 的硬推理和一个助手该有的体面表达。
04

GRPO 算法与奖励设计

支撑整套训练的两块基石:一个更省的 RL 算法,和一套「不容易被钻空子」的奖励。

⚙️ GRPO(组相对策略优化)
是什么
GRPO 是本文用来训练 R1-Zero 和 R1 的 RL 算法。对每个问题 q,它从旧策略采样一组回答 {o₁, o₂, …, o_G},每个回答由奖励模型(可以是学习来的「模型奖励」,也可以是手工规则的「规则奖励」)打一个分,然后用组内的相对得分来估计每个回答的「优势(advantage)」
为什么
它是为简化 PPO、降低资源消耗而提出的。传统 PPO 需要额外训练一个价值网络(value model)来估计基线,既费算力又复杂。GRPO 的巧思是:干脆不要价值网络,直接拿「这一组回答的平均分」当基线——比平均好的就是正优势,比平均差的就是负优势。同时它仍用 KL 散度约束,不让新策略偏离参考策略太远,保证训练稳定。
例子
好比老师一次让全班同一道题写 16 种解法,然后说「比班级平均水平好的解法,以后多这么写;差的少这么写」。老师不需要先算出「这题标准应得几分」(那就是价值网络),只用班内横向比较就给出了方向。
问题 q 策略模型 (可训练) 回答 o₁ 回答 o₂ 回答 o_G r₁ r₂ r_G 组内 比较 优势 Aᵢ 无价值网络 每个回答打一个标量奖励
GRPO 对比 PPO 的核心区别:一次采一组回答,直接拿「组内相对得分」算优势,省掉了 PPO 那个单独的价值网络。

🎁 奖励设计:为什么坚持用「规则」而非「神经网络」

奖励是训练信号的源头,决定了 RL 优化的方向。R1-Zero 在数学、代码、逻辑这类有确定答案的领域只用规则奖励;到了 R1,才对通用数据额外引入模型奖励。规则奖励由两部分组成:

准确性奖励(Accuracy):答案对不对。数学题要求把答案放进指定格式(如方框)里,用规则直接校验;代码题则用编译器跑预设测试用例,客观判对错。
对/错
确定性验证
格式奖励(Format):是否把推理过程规规矩矩地包在 <think> 标签里。这保证了思考过程被清晰地标出来,既好读也便于后续分析。两种奖励等权重相加
规范
可解释性
⚠️ 为什么对推理任务坚决不用神经奖励模型 作者明确说明:在推理任务上不采用任何神经网络奖励模型(无论结果型还是过程型)。原因是——神经奖励模型在大规模 RL 中容易被「奖励黑客(reward hacking)」:模型会找到漏洞去骗高分,而不是真把题做对。而且重训这种奖励模型既费算力又让训练管线更复杂。规则奖励虽然「笨」,但骗不了
🌐 R1 的模型奖励:有用性 + 无害性
是什么
对没有确定答案的通用数据(如写作、开放问答),R1 引入两个学习来的奖励模型。有用性奖励只评估最终的回答总结(不干扰中间推理);无害性奖励则评估包括推理过程在内的整个回答,识别潜在风险、偏见或有害内容。
为什么
因为「这篇文章写得好不好」「这个回答有没有用」没法用规则一刀切,只能靠学到人类偏好的模型来判断。但前面说过模型奖励有被钻空子的风险,所以作者很克制:有用性偏好对训练用得很谨慎,而且只在第二阶段 RL 的最后 400 步才引入偏好奖励——发现用太多步反而会触发奖励黑客。
例子
有用性奖励模型用了 66,000 对偏好数据训练;为避免「位置偏见」,每对让 V3 评判 4 次、随机交换 A/B 位置再取平均;还特意让被选中和被拒绝的回答长度相当,免得模型误以为「越长越好」。安全奖励模型则用 106,000 条标了「安全/不安全」的提示训练。这些细节都是在堵奖励黑客的漏洞。
05

训练超参数全记录

这一节把论文 Methods 里的具体训练数字完整收录,方便复现与对照。前面讲「怎么想」,这里讲「具体怎么训」。

🧪 DeepSeek-R1-Zero 的训练细节

🥇 第一阶段 RL 的训练细节

⚖️ 一个诚实的权衡 论文的消融实验显示,加入语言一致性奖励会让模型性能略有下降;但因为它更符合人类偏好、可读性更好,作者认为这个代价值得。这是一处「为了好用而主动牺牲一点点分数」的取舍。
✂️ clip 比例为什么关键 作者强调 clip 比例在训练中起关键作用:取值过低会截断大量 token 的梯度,从而损害模型性能;取值过高则可能引发训练不稳定。需要在两者间小心平衡。

🥈 第二阶段 RL 的训练细节

🎁 两个奖励模型的训练参数

有用性奖励模型(pairwise 成对损失):66,000 对偏好数据;每对让 V3 评判 4 次并随机交换 A/B 位置取平均(消除位置偏见),只保留分差 Δ>1 的对;保证被选/被拒回答长度相当。架构与 R1 一致,加一个预测标量分数的奖励头。
66k
对 · 成对
训练超参:批大小 256,学习率 6×10⁻⁶,在训练集上跑 单个 epoch;训练时最大序列长 8,192 token,推理时不设显式上限。
8192
最大序列长
安全奖励模型(pointwise 逐点损失):106,000 条带「安全/不安全」标注的提示训练。与有用性的成对损失不同,它用逐点方法直接区分安全与否。其余超参与有用性模型相同。
106k
条 · 逐点
🔁 处理无可靠信号的任务 对那些拿不到可靠奖励信号的任务,本文的做法是:用人工标注创建监督数据,且只跑数百步 RL。作者希望未来能获得更鲁棒的奖励模型来解决这类问题。
06

各发展阶段的实验结果

把 R1-Zero、Dev1/2/3、最终 R1 放在一起看,能清楚看到每个阶段「补」了什么。

下面是论文 Table 2 的完整数据(全部 21 项基准)。读这张表的诀窍是:横着看一行,就能看出某项能力是在哪个阶段被拉起来的。例如代码和数学主要在 Dev2 起飞,而通用偏好类(AlpacaEval、Arena-Hard)则在最终 R1 阶段才完成质变。表中蓝色高亮表示该行最优值。

📚 评测覆盖的完整基准清单 论文在 21 个基准上评测:英文/通用——MMLU、MMLU-Redux、MMLU-Pro、DROP、IF-Eval、GPQA Diamond、SimpleQA、FRAMES、AlpacaEval 2.0、Arena-Hard;代码——LiveCodeBench(2024-08~2025-01)、Codeforces、SWE-bench Verified、Aider-Polyglot;数学——AIME 2024、MATH-500、CNMO 2024;中文——CLUEWSC、C-Eval、C-SimpleQA。
基准(指标)R1-ZeroDev1Dev2Dev3R1
MMLU (EM)88.889.191.291.090.8
MMLU-Redux (EM)85.690.093.093.192.9
MMLU-Pro (EM)68.974.183.883.184.0
DROP (3-shot F1)89.189.891.188.792.2
IF-Eval(Prompt Strict)46.671.772.078.183.3
GPQA Diamond (Pass@1)75.866.170.771.271.5
SimpleQA (Correct)30.317.828.224.930.1
FRAMES (Acc.)82.378.581.881.982.5
AlpacaEval 2.0(LC-winrate)24.750.155.862.187.6
Arena-Hard(GPT-4-1106)53.677.073.275.692.3
LiveCodeBench(Pass@1-COT)50.057.563.564.665.9
Codeforces(百分位)80.484.590.592.196.3
Codeforces(评分)14441534168717462029
SWE-bench Verified43.239.644.645.649.2
Aider-Polyglot (Acc.)12.26.725.644.853.3
AIME 2024 (Pass@1)77.959.074.078.179.8
MATH-500 (Pass@1)95.994.295.995.497.3
CNMO 2024 (Pass@1)88.158.073.977.378.8
CLUEWSC (EM)93.192.892.691.692.8
C-Eval (EM)92.885.791.986.491.8
C-SimpleQA (Correct)66.458.864.266.963.7
论文 Table 2 完整数据。注意 Dev1 在 AIME/CNMO 上的回退,以及 R1 在 AlpacaEval/Arena-Hard 上的飞跃。原论文中加粗值表示统计显著(t 检验 P<0.01)。
🧬 还有一招:把强推理「蒸馏」给小模型 论文还做了一件事——用大模型涌现出的推理模式,去引导和增强更小模型的推理能力。蒸馏出的小模型表现超过它们原本的指令微调版本。意义在于:让强推理能以更低的算力和能耗被更广泛地使用,也给研究社区提供了理解长 CoT 推理机制的宝贵资源。
07

局限、安全声明与未来

论文很诚实地列出了 R1 还做不好的地方,以及纯 RL 方法本身的天花板。

🛡️ 伦理与安全声明 作者明确承认风险:R1 可能被越狱攻击(jailbreak),而增强的推理能力会让它生成的危险内容(如爆炸物制造方案)更具可操作性;公开模型也可能被进一步微调而破坏内置的安全保护。综合评估结论是:R1 自身的安全水平与其他 SOTA 模型相当,处于中等水平(可比 GPT-4o);一旦配合外部风控系统,安全等级可提升到更高标准。

🚧 具体能力局限

⚠️ 纯 RL 方法的根本挑战:奖励黑客
是什么
纯 RL 的成败取决于奖励信号是否可靠。本文靠「推理领域的规则奖励」保证了可靠性,但对写作这类任务,可靠的奖励模型很难构造。一旦奖励由模型(而非预设规则)给出,随训练推进就越来越容易被策略模型钻空子——找到捷径去「黑」掉奖励模型。
为什么
这意味着:对于无法被可靠奖励模型评估的复杂任务,纯 RL 的扩展仍是一个开放难题。本文的折中办法是——对拿不到可靠信号的任务,改用人工标注做监督数据,RL 只跑几百步。作者期望未来能造出更鲁棒的奖励模型来根治这个问题。
例子
就像考试如果改成「老师凭感觉打分」,聪明的学生会去研究老师的喜好(字写漂亮、堆专业词)来骗分,而不是真把知识学扎实。规则评分(选择题机器判卷)就没这个空子可钻——这正是论文坚持规则奖励的原因。

🌅 结论与展望

论文的核心结论是:预训练好的检查点本身就蕴含着巨大的复杂推理潜力,而解锁它的钥匙不在于大规模人工标注,而在于——提供足够难的推理问题、一个可靠的验证器、以及充足的算力来做 RL。自我验证、反思这些复杂推理行为,会在 RL 过程中「有机地」自发涌现。

展望未来:对于任何能被验证器有效评估的任务,无论它对人类有多难,具备这种 RL 技术的机器都有望通过试错迭代地优化、最终超越人类。真正的难点留给了那些「难以构造可靠奖励」的任务。此外,把工具(编译器、搜索引擎,甚至真实世界的化学/生物试剂)融入推理过程,被认为是极具前景的下一步。

08

开源与可复现信息

论文同时公开了模型权重、数据样本与技术栈,这一节把这些信息完整收录。

🌍 开源的意义 作者特别指出:开源这些指令微调版本能为研究社区理解长 CoT 推理模型的内在机制提供宝贵资源,并推动更强推理模型的发展。蒸馏出的小模型则让强推理能以更低能耗被更广泛使用。
整理自 Nature 论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》(Vol 645, 2025-09-18,DeepSeek-AI 团队)
处理方式:逐字整理 + 概念展开(是什么/为什么/例子)与可视化 · 原文事实与数据全部保留,补充解释为该领域公认常识或对原文逻辑的合理延伸
DOI: 10.1038/s41586-025-09422-z · 权重 MIT 开源