DeepSeek-R1:用强化学习激发大模型的推理能力

核心问题:推理能力,非得靠人「喂」吗?

这一节先说清楚论文要解决的痛点,以及它给出的反直觉答案。

推理能力是人类智能的基石——从解数学题到逻辑推导再到写程序,都靠它。近年人们发现,大语言模型(LLM)规模够大时会「涌现」出推理能力。但这里有个常被忽略的限定条件:原文指出,要在预训练阶段就获得这种能力,通常需要消耗大量算力。于是出现了一条互补的研究路线——思维链(CoT)提示:不靠重新训练,而是在用模型时,要么给几个精心设计的少样本范例,要么加一句「Let's think step by step(让我们一步步思考)」这样的极简提示,模型就会产出中间推理步骤,从而大幅提升复杂任务的表现。类似地,如果让模型在后训练阶段学习高质量的多步推理轨迹,也能进一步提升。

但这条「靠人类示范」的路有根本瓶颈。论文把它拆成一条因果链来说,值得原样保留:

人类示范路线的两个根本问题。第二条(上限被钉死)是论文更看重的——它直接催生了「干脆不让模型模仿人」的想法。

🎯 论文的核心主张 LLM 的推理能力可以纯粹通过强化学习(RL)来激发,从而免去对人工标注推理轨迹的需要。在这个框架下,自我反思、验证、动态策略调整等高级推理模式会自发涌现;最终模型在数学、编程竞赛、STEM 等可验证任务上,反而超过了用人类示范做监督学习训练出来的同类模型。而且——这些大模型涌现出的推理模式,还能反过来系统性地引导和增强更小模型的推理能力。

具体怎么做?论文用「机制拆解 + 一个关键的反直觉选择」来讲清它的方法骨架。

🧩 关键设计:绕过 SFT,直接上 RL(机制拆解)

是什么

论文以 DeepSeek-V3 Base 为底座,用 GRPO 作为 RL 框架。奖励信号只基于最终预测对照标准答案的正确性,不对推理过程本身施加任何约束。最关键的一步:刻意绕过 RL 之前传统的监督微调(SFT)阶段,直接开始 RL。

为什么

这个选择源自一个明确的假设(原文用的是「hypothesis」,是假设而非定论):人类定义的推理模式可能限制模型探索,而不受约束的 RL 能更好地激发 LLM 涌现新的推理能力。注意这里的语气是「可能 / 能更好地」,论文把它当作一个待验证的赌注,而非板上钉钉的结论。

例子

这个例子用于帮助理解,非原文内容:就像学下棋,先背人类棋谱会把人框在已有套路里;而只告诉 AI「赢棋得分」让它自我对弈,反而可能走出人类没想过的妙手。R1-Zero 走的正是这条「只给奖励、自己摸索」的路。

由此训练出的第一个模型叫 DeepSeek-R1-Zero。它推理能力出色,但存在具体的毛病,而这些毛病又直接决定了下一个模型为什么要那样设计——这条因果关系是理解全文管线的钥匙:

🔤
可读性差、语言混杂:R1-Zero 偶尔在同一段 CoT 里混用英文和中文。这源于底座 V3 在多语言(尤其中英)上训练。
🎯
能力面窄:R1-Zero 的规则式 RL 阶段只聚焦推理任务,导致它在写作、开放域问答等更广领域表现有限。

正是为了解决这两点,作者又造了 DeepSeek-R1:一个通过整合「拒绝采样 + RL + 监督微调」的多阶段框架训练的模型。它继承了前身 R1-Zero 的推理能力,同时通过引入非推理数据把模型行为对齐到人类偏好。此外,为了让强推理能以更低能耗被更广泛使用,团队还蒸馏了多个更小的模型并公开发布——这些蒸馏模型的推理能力超过了它们原本的指令微调版本。R1-Zero、R1、数据样本与蒸馏模型均已按「代码可用性」一节公开。

LLM

大语言模型。本文的「底座」是 DeepSeek-V3 Base。

CoT 思维链

让模型先写出中间推理步骤再给答案,以提升复杂任务表现的提示技术。

RL 强化学习

通过「奖励信号」而非「标准答案示范」来训练模型的范式;本文用 GRPO 实现。

SFT 监督微调

用人工标注的「输入→理想输出」对来微调模型。本文在 R1-Zero 上刻意跳过了它。

可验证任务

有确定、可自动判对错的答案的任务(数学、代码),是纯 RL 能用的前提。

蒸馏

把大模型的能力「教」给小模型,以更低算力获得接近的表现。

DeepSeek-R1-Zero:纯 RL 下的自我进化

不教怎么想,只给一个格式模板和一个对错奖励,看模型自己进化成什么样。

训练 R1-Zero 时,作者只给模型设了一个极简的格式约束:先在 <think> 标签里写推理过程,再在 <answer> 标签里给答案。有意把约束只限制在这个结构格式上,避免任何「内容层面」的偏置——这样才能干净地观察模型在 RL 过程中的自然演化。下面是实际用的提示模板(翻译大意):

<think> 推理过程写在这里 </think>
<answer> 答案写在这里 </answer>

User: {把这里换成具体的推理问题}
Assistant:

就这么简单的设定,结果非常惊人。在 AIME 2024(美国数学邀请赛)这个高难基准上,模型的平均 pass@1 成绩从 15.6% 一路飙升到 77.9%;再配合自一致性解码(self-consistency)多次采样投票,准确率进一步达到 86.7%,大幅超过了 AIME 全体人类参赛者的平均水平。除了数学竞赛,R1-Zero 在编程竞赛和研究生级别的生物、物理、化学问题上也表现出色(见原文补充图 8)。

15.6%

训练初期
AIME pass@1

77.9%

训练后
AIME pass@1

86.7%

配合自一致性解码
(cons@16)

🔄 自进化行为:思考时间自己越变越长

是什么

随着训练推进,R1-Zero 每条回答的平均长度稳步增长——从几百 token 涨到上万 token。这完全是模型内在自适应的结果,作者没有写任何规则去要求它「想久一点」。

为什么

因为奖励只看答案对错,而想得更久、多探索几条路、回头验证一遍,客观上能提高答对的概率。于是 RL 自然而然地「奖励」了那些更长、更细致的推理。更长的思考时间,催生出更复杂的行为:反思式推理、系统性地尝试多种备选方案。

例子

就像一个学生做难题,刚开始草草写两行就交卷,慢慢学会了「先列几种思路、算完回头检查一遍、发现不对再换个方法」。没人教这套流程,但因为这样得分更高,他自己摸索出来了。

R1-Zero 的自进化闭环:奖励只在末端「卡答案」,中间怎么想完全放开,模型于是自己学会了「想得更久、更细」。

💡 论文原话的精神强化学习的力量与美正在于此:我们没有教模型如何解题,只是给了它正确的激励,它就自主发展出了高级的解题策略。这提醒我们,RL 有潜力把 LLM 的能力解锁到更高层次。

类比

🔗 R1-Zero 的自进化,像一个「只被告知胜负」的自学者

（以下类比为帮助理解所加,非原文内容)想象你把一个人关进一间只有题目和「对/错」指示灯的房间,不给任何解题示范,也不限制他怎么想,唯一规则是:答对了灯变绿。

一开始他乱猜,绿灯偶尔亮。但他慢慢发现:多花时间、把思路写下来、算完回头验一遍、错了换个方法——绿灯亮得更勤。于是他不是「被教会」,而是被胜负信号一点点逼出了反思、验证、换思路这套元认知习惯。这正对应论文观察到的两件事:回答越来越长(愿意多想),以及「wait」这类反思词越来越多(学会自我怀疑)。

这个类比的「同构点」在于:奖励只在最末端、只看结果,中间过程完全自由——所以复杂策略是「涌现」的,不是「灌输」的。这也是它和「背棋谱式」监督学习的本质区别。

「顿悟时刻」(Aha Moment)

训练途中,模型突然学会了「等一下,我好像错了」——这是全文最戏剧性的一幕。

在训练某个中间版本时,作者观察到一个被称为「顿悟时刻」(aha moment) 的现象:模型在反思时,「wait(等等)」这个词的使用频率突然激增。这标志着推理模式发生了一次明显的转变,清晰地展示了 R1-Zero 的自我进化过程。论文里给了一个实例:模型在解一个含嵌套根号的方程时,算到一半突然冒出来一句——

🤯 模型自己写下的话(论文 Table 1 实例) 「Wait, wait. Wait. That's an aha moment I can flag here.(等等、等等、等等。这里有个顿悟时刻我得标记一下。)Let's reevaluate this step by step…(让我们一步步重新评估……)」
模型学会了用一种拟人化的语气来「重新思考」。作者说,这对他们自己也是一个顿悟时刻——让人亲眼见证了 RL 的力量与美。

🔍 「反思词频率」说明了什么

是什么

作者请三位人类专家共同确定了一组「反思类词汇」——包括 wait、mistake、however、but、retry、error、verify、wrong、evaluate、check(等等、错误、然而、但是、重试、出错、验证、错的、评估、检查)。然后统计这些词在训练全程中出现的频率。

为什么

这些词是「自我监控」行为的语言指纹。一个会说「等等,这步好像错了,我验证一下」的模型,本质上是在监督自己的推理过程。它们的频率上升,等于客观证据表明反思和自我纠错的能力正在涌现,而不是研究者的主观感觉。

例子

具体到「wait」一词:训练早期几乎从不出现;在第 4,000~7,000 步之间零星冒头;到第 8,000 步之后频率猛增。这条曲线就像一个孩子从「闷头往下写」到「会停下来怀疑自己」的成长轨迹。

📌 一个重要细节:能力在 8.2k 步「跳变」训练中作者把单条回答的最大长度从 32,768 token 在第 8.2k 步提到了 65,536 token。正是在这一步,模型的性能和回答长度都出现了明显跃升——这和「wait」词频在第 8,000 步后激增的时间点相互印证,说明给够「思考空间」是反思行为爆发的关键条件之一。

DeepSeek-R1:多阶段训练管线

R1-Zero 很能推理但「不好好说话」。R1 用一条四阶段管线,把推理能力和人类偏好缝合到一起。

R1-Zero 的问题前面说过:可读性差、中英文混杂(因为底座 V3 在中英双语上训练),而且它纯靠规则奖励、只盯着推理任务,所以在写作、开放域问答这些更广的领域表现有限。为解决这些问题,作者设计了 DeepSeek-R1 的多阶段管线,整体经历 Dev1 → Dev2 → Dev3 三个中间检查点,最后到 R1。

DeepSeek-R1 的四阶段管线。上排是每个阶段做了什么,下排是对应解决的问题。R1 由此「继承」了 R1-Zero 的推理力,又补上了可读性与通用能力。

🪜 四个阶段分别在做什么(逐步推演)

冷启动 SFT → Dev1

先收集数千条具有「对话式、人类对齐的思考过程」的冷启动数据做监督微调。结果:对比 R1-Zero,指令遵循明显变强(IF-Eval、Arena-Hard 提升)。但有个明确的因果代价——原文指出「正因为冷启动数据集规模有限」,Dev1 的推理能力反而出现部分回退,尤其在 AIME 上。这是「先学会好好说话」付出的暂时代价。

推理向 RL → Dev2

用规则奖励做强化学习,并引入语言一致性奖励压制中英混杂。Dev2 在代码、数学、STEM 等需要硬推理的基准上大幅跃升;而像 AlpacaEval 2.0 这类通用偏好基准只是边际改善。这条对比印证了一个限定结论:推理向 RL 主要补推理,对「用户偏好类」基准影响有限。

拒绝采样 + SFT → Dev3

把推理和非推理数据一起喂进 SFT 流程。相比 Dev2,Dev3 在 AlpacaEval 2.0 和 Aider-Polyglot 上明显进步——原文把这归因于纳入了大规模非推理语料和代码工程数据集。既会推理,也补上了写作能力。

✓

全面 RL → 最终 R1

在 Dev3 上用「推理向 + 通用」混合数据做最终 RL。此时数学/代码只有边际提升(原文解释:因为大量推理专项 RL 已在前面阶段做过了)。最终 R1 的主要进步在通用指令遵循和用户偏好上:AlpacaEval 2.0 提升 25%、Arena-Hard 提升 17%。

🧭 一句话抓住这条管线的逻辑每个阶段都在有针对性地补一块短板:先用冷启动让它「说人话」,再用 RL 把推理顶到极限,然后用混合 SFT 补齐写作/通用能力,最后再用一轮全面 RL 把「有用 + 无害」对齐好。R1 因此同时拥有了 R1-Zero 的硬推理和一个助手该有的体面表达。

GRPO 算法与奖励设计

支撑整套训练的两块基石:一个更省的 RL 算法,和一套「不容易被钻空子」的奖励。

📎 建议先理解前面的「只用对错奖励、不约束推理过程」设计,再看本节怎么用算法实现它。

⚙️ GRPO(组相对策略优化)

是什么

GRPO 是本文用来训练 R1-Zero 和 R1 的 RL 算法。对每个问题 q,它从旧策略采样一组回答 {o₁, o₂, …, o_G},每个回答由奖励模型(可以是学习来的「模型奖励」,也可以是手工规则的「规则奖励」)打一个分,然后用组内的相对得分来估计每个回答的「优势(advantage)」。

为什么

它是为简化 PPO、降低资源消耗而提出的。传统 PPO 需要额外训练一个价值网络(value model)来估计基线,既费算力又复杂。GRPO 的巧思是:干脆不要价值网络,直接拿「这一组回答的平均分」当基线——比平均好的就是正优势,比平均差的就是负优势。同时它仍用 KL 散度约束,不让新策略偏离参考策略太远,保证训练稳定。

例子

好比老师一次让全班同一道题写 16 种解法,然后说「比班级平均水平好的解法,以后多这么写;差的少这么写」。老师不需要先算出「这题标准应得几分」(那就是价值网络),只用班内横向比较就给出了方向。

💬 想看严谨一点的数学表述?点开

原文的形式化定义(忠实转述):对每个问题 q,GRPO 从旧策略 π_θold 采样一组输出 {o₁,…,o_G},通过最大化一个目标函数 J_GRPO(θ) 来优化策略 π_θ。该目标对每个输出取重要性采样比(新旧策略概率之比)乘以优势 Aᵢ,并用 clip 操作把这个比值裁剪到 [1−ε, 1+ε] 区间,再减去一个 β 加权的 KL 散度项(相对参考策略 π_ref)。

其中优势的算法是:Aᵢ =(rᵢ − mean({r₁,…,r_G}))/ std({r₁,…,r_G})——即把组内每个回答的奖励,减去组内均值、再除以组内标准差(做标准化)。这就是「组相对」三个字的由来:优势完全来自组内横向比较,不依赖任何价值网络。

大白话再讲一遍(增补,帮助理解):clip 是给「这次更新别迈太大步」上的保险——比值超出 1±ε 就截住,防止一次更新把策略推得太偏;KL 项是另一道缰绳,拉着新策略别离参考策略太远;而「减均值除以标准差」就是把一组分数换算成「在本组里算好还是算差、好/差多少个标准差」。三者合起来:朝着「比组内平均更好」的方向更新,但每步都拴着两道安全绳。

GRPO 对比 PPO 的核心区别:一次采一组回答,直接拿「组内相对得分」算优势,省掉了 PPO 那个单独的价值网络。

🎁 奖励设计:为什么坚持用「规则」而非「神经网络」

奖励是训练信号的源头,决定了 RL 优化的方向。R1-Zero 在数学、代码、逻辑这类有确定答案的领域只用规则奖励;到了 R1,才对通用数据额外引入模型奖励。规则奖励由两部分组成:

训练超参数全记录

这一节把论文 Methods 里的具体训练数字完整收录,方便复现与对照。前面讲「怎么想」,这里讲「具体怎么训」。

🧪 DeepSeek-R1-Zero 的训练细节

🎚️
基础超参:学习率 3×10⁻⁶,KL 系数 0.001,rollout 采样温度 1。
🔢
采样与长度:每个问题采样 16 个输出;最大长度在第 8.2k 步之前为 32,768 token,之后提升到 65,536 token。正是这次提升,让性能和回答长度在 8.2k 步出现明显跃升。
📦
批次与步数:每个训练步含 32 个不同问题,训练批大小为 512/步;每 400 步用最新策略模型替换参考模型;共训练 10,400 步,相当于 1.6 个 epoch。
⚡
加速技巧:每次 rollout 生成 8,192 个输出,随机切成 16 个 minibatch,每个只训练单个内部 epoch。「一个训练步」指一次策略更新操作。

🥇 第一阶段 RL 的训练细节

🎚️
基础超参:学习率 3×10⁻⁶,KL 系数 0.001,GRPO clip 比例 ε=10,采样温度 1;每题采样 16 个输出、最大长度 32,768;每步 32 题(批大小 512),每 400 步替换参考模型,rollout/minibatch 设置同上。
🈳
语言一致性奖励:为缓解语言混杂,引入该奖励,定义为 CoT 中目标语言词数占总词数的比例(Num(目标语言词) / Num(总词)),直接加到最终奖励上,对推理和非推理数据都适用。

⚖️ 一个诚实的权衡论文的消融实验显示,加入语言一致性奖励会让模型性能略有下降;但因为它更符合人类偏好、可读性更好,作者认为这个代价值得。这是一处「为了好用而主动牺牲一点点分数」的取舍。

✂️ clip 比例为什么关键作者强调 clip 比例在训练中起关键作用:取值过低会截断大量 token 的梯度,从而损害模型性能;取值过高则可能引发训练不稳定。需要在两者间小心平衡。

🥈 第二阶段 RL 的训练细节

🌡️
温度降到 0.7:第二阶段保留第一阶段大部分参数,关键差异是采样温度从 1 降到 0.7——因为作者发现此阶段温度过高会导致生成不连贯。
🔢
步数安排:共 1,700 个训练步,其中通用指令数据和基于偏好的奖励只在最后 400 步引入。原因是:用更多步数跑模型偏好奖励反而会触发奖励黑客。
🧮
奖励组合(第二阶段):总奖励 = 推理奖励 + 通用奖励 + 语言奖励;其中推理奖励 = 规则奖励,通用奖励 = 模型奖励 + 格式奖励。推理数据沿用 R1-Zero 的规则奖励,通用数据用奖励模型引导。

🎁 两个奖励模型的训练参数

有用性奖励模型(pairwise 成对损失):用 66,000 对偏好数据;每对让 V3 评判 4 次并随机交换 A/B 位置取平均(消除位置偏见),只保留分差 Δ>1 的对;保证被选/被拒回答长度相当。架构与 R1 一致,加一个预测标量分数的奖励头。

66k

对 · 成对

训练超参:批大小 256,学习率 6×10⁻⁶,在训练集上跑 单个 epoch;训练时最大序列长 8,192 token,推理时不设显式上限。

8192

最大序列长

安全奖励模型(pointwise 逐点损失):用 106,000 条带「安全/不安全」标注的提示训练。与有用性的成对损失不同,它用逐点方法直接区分安全与否。其余超参与有用性模型相同。

106k

条 · 逐点

🔁 处理无可靠信号的任务对那些拿不到可靠奖励信号的任务,本文的做法是:用人工标注创建监督数据,且只跑数百步 RL。作者希望未来能获得更鲁棒的奖励模型来解决这类问题。

基准(指标)	R1-Zero	Dev1	Dev2	Dev3	R1
MMLU (EM)	88.8	89.1	91.2	91.0	90.8
MMLU-Redux (EM)	85.6	90.0	93.0	93.1	92.9
MMLU-Pro (EM)	68.9	74.1	83.8	83.1	84.0
DROP (3-shot F1)	89.1	89.8	91.1	88.7	92.2
IF-Eval(Prompt Strict)	46.6	71.7	72.0	78.1	83.3
GPQA Diamond (Pass@1)	75.8	66.1	70.7	71.2	71.5
SimpleQA (Correct)	30.3	17.8	28.2	24.9	30.1
FRAMES (Acc.)	82.3	78.5	81.8	81.9	82.5
AlpacaEval 2.0(LC-winrate)	24.7	50.1	55.8	62.1	87.6
Arena-Hard(GPT-4-1106)	53.6	77.0	73.2	75.6	92.3
LiveCodeBench(Pass@1-COT)	50.0	57.5	63.5	64.6	65.9
Codeforces(百分位)	80.4	84.5	90.5	92.1	96.3
Codeforces(评分)	1444	1534	1687	1746	2029
SWE-bench Verified	43.2	39.6	44.6	45.6	49.2
Aider-Polyglot (Acc.)	12.2	6.7	25.6	44.8	53.3
AIME 2024 (Pass@1)	77.9	59.0	74.0	78.1	79.8
MATH-500 (Pass@1)	95.9	94.2	95.9	95.4	97.3
CNMO 2024 (Pass@1)	88.1	58.0	73.9	77.3	78.8
CLUEWSC (EM)	93.1	92.8	92.6	91.6	92.8
C-Eval (EM)	92.8	85.7	91.9	86.4	91.8
C-SimpleQA (Correct)	66.4	58.8	64.2	66.9	63.7

局限、安全声明与未来

论文很诚实地列出了 R1 还做不好的地方,以及纯 RL 方法本身的天花板。

🛡️ 伦理与安全声明作者明确承认风险:R1 可能被越狱攻击(jailbreak),而增强的推理能力会让它生成的危险内容(如爆炸物制造方案)更具可操作性;公开模型也可能被进一步微调而破坏内置的安全保护。综合评估结论是:R1 自身的安全水平与其他 SOTA 模型相当,处于中等水平(可比 GPT-4o);一旦配合外部风控系统,安全等级可提升到更高标准。

🚧 具体能力局限

🔧
结构化输出与工具使用:R1 的结构化输出能力仍逊于现有模型,而且不能调用搜索引擎、计算器等工具来辅助。不过作者认为为「结构化输出 + 工具使用」搭一个 RL 环境并不难,下个版本会解决。
🎚️
Token 效率(过度思考):不同于多数投票或蒙特卡洛树搜索(MCTS),R1 会按问题难度动态分配算力——简单题少花 token,难题多花。但简单问题上仍会出现「想太多(overthinking)」,效率还有优化空间。
🌍
语言混杂:R1 目前为中英文优化,处理其他语言的查询时可能出现语言混杂(比如查询是别的语言,它却用英文推理和回答)。这可能源自底座 V3 Base 主要用中英文训练。
📝
对提示敏感:评估发现 R1 对提示很敏感,少样本(few-shot)提示反而会持续拉低它的表现。作者建议用户直接描述问题、用零样本(zero-shot)设定、并明确指定输出格式,效果最好。
💻
软件工程任务:因评估耗时长、拖慢 RL 效率,大规模 RL 还没充分用在软工任务上,所以 R1 在软工基准上相比 V3 提升不大。未来会用拒绝采样或异步评估来改善。

⚠️ 纯 RL 方法的根本挑战:奖励黑客

是什么

纯 RL 的成败取决于奖励信号是否可靠。本文靠「推理领域的规则奖励」保证了可靠性,但对写作这类任务,可靠的奖励模型很难构造。一旦奖励由模型(而非预设规则)给出,随训练推进就越来越容易被策略模型钻空子——找到捷径去「黑」掉奖励模型。

为什么

这意味着:对于无法被可靠奖励模型评估的复杂任务,纯 RL 的扩展仍是一个开放难题。本文的折中办法是——对拿不到可靠信号的任务,改用人工标注做监督数据,RL 只跑几百步。作者期望未来能造出更鲁棒的奖励模型来根治这个问题。

例子

就像考试如果改成「老师凭感觉打分」,聪明的学生会去研究老师的喜好(字写漂亮、堆专业词)来骗分,而不是真把知识学扎实。规则评分(选择题机器判卷)就没这个空子可钻——这正是论文坚持规则奖励的原因。

🌅 结论与展望

论文的核心结论是:预训练好的检查点本身就蕴含着巨大的复杂推理潜力,而解锁它的钥匙不在于大规模人工标注,而在于——提供足够难的推理问题、一个可靠的验证器、以及充足的算力来做 RL。自我验证、反思这些复杂推理行为,会在 RL 过程中「有机地」自发涌现。

展望未来:对于任何能被验证器有效评估的任务,无论它对人类有多难,具备这种 RL 技术的机器都有望通过试错迭代地优化、最终超越人类。真正的难点留给了那些「难以构造可靠奖励」的任务。此外,把工具(编译器、搜索引擎,甚至真实世界的化学/生物试剂)融入推理过程,被认为是极具前景的下一步。

DeepSeek-R1:用强化学习激发大模型的推理能力

核心问题:推理能力,非得靠人「喂」吗?

DeepSeek-R1-Zero:纯 RL 下的自我进化

「顿悟时刻」(Aha Moment)

DeepSeek-R1:多阶段训练管线

🪜 四个阶段分别在做什么(逐步推演)

冷启动 SFT → Dev1

推理向 RL → Dev2

拒绝采样 + SFT → Dev3

全面 RL → 最终 R1

GRPO 算法与奖励设计

🎁 奖励设计:为什么坚持用「规则」而非「神经网络」

训练超参数全记录

🧪 DeepSeek-R1-Zero 的训练细节

🥇 第一阶段 RL 的训练细节

🥈 第二阶段 RL 的训练细节

🎁 两个奖励模型的训练参数

各发展阶段的实验结果

局限、安全声明与未来

🚧 具体能力局限

🌅 结论与展望

开源与可复现信息