DeepSeek-R1:用强化学习激发大模型的推理能力

核心问题:推理能力,非得靠人「喂」吗?

这一节先说清楚论文要解决的痛点,以及它给出的反直觉答案。

推理能力是人类智能的基石——从解数学题到逻辑推导再到写程序,都靠它。近年人们发现,大语言模型(LLM)规模够大时会「涌现」出推理能力,而思维链(CoT)提示又能进一步把这种能力放出来:只要给几个范例,或者加一句「Let's think step by step(让我们一步步思考)」,模型就会先写出中间推理步骤,复杂任务的表现随之大幅提升。

但这条路有个根本瓶颈。无论是 CoT 提示还是后训练阶段学习「高质量多步推理轨迹」,都严重依赖人工标注的推理过程。这带来两个问题:一是人工标注慢、难规模化、还会引入人的认知偏见;二是更要命的——当你逼着模型去模仿人类的思考方式,它的上限就被人类示范钉死了,模型再也探索不到那些「不像人、但可能更好」的推理路径。

🎯 论文的核心主张 LLM 的推理能力可以纯粹通过强化学习(RL)来激发,完全不需要人工标注的推理轨迹。在这个框架下,自我反思、验证、动态调整策略等高级推理模式会「自发涌现」,最终模型在数学、编程竞赛、STEM 等可验证任务上,反而超过了用人类示范做监督学习训练出来的同类模型。

🧩 它的关键设计选择:跳过 SFT,直接上 RL

是什么

论文以 DeepSeek-V3 Base 为底座,用 GRPO 作为强化学习框架。奖励信号只看最终答案对不对(对照标准答案),完全不管推理过程长什么样。最关键的是:他们故意跳过了传统的监督微调(SFT)阶段,直接开始 RL 训练。

为什么

背后的假设是:人类定义的推理模式会限制模型探索。一旦先用 SFT 把模型「教成人的样子」,它就被框住了。而不加约束的 RL,反而更能激发出全新的推理能力。这就是整篇论文最大的赌注——少教,甚至不教,只给对的激励。

例子

类比下围棋:与其让 AI 背棋谱(模仿人类棋手),不如只告诉它「赢棋得分」,让它自己左右互搏。AlphaGo Zero 就是这么下出了人类从没想过的「神之一手」。R1-Zero 走的是同一条「只给奖励、自己摸索」的路。

由此训练出的第一个模型叫 DeepSeek-R1-Zero。但它有毛病:可读性差、中英文混着说。于是作者又造了 DeepSeek-R1——在 R1-Zero 的推理能力之上,用多阶段训练把它的行为对齐到人类偏好。此外,团队还把推理能力蒸馏进了几个更小的模型并开源,让低算力、低能耗也能用上强推理。

DeepSeek-R1-Zero:纯 RL 下的自我进化

不教怎么想,只给一个格式模板和一个对错奖励,看模型自己进化成什么样。

训练 R1-Zero 时,作者只给模型设了一个极简的格式约束:先在 <think> 标签里写推理过程,再在 <answer> 标签里给答案。除此之外不加任何「内容上」的引导——目的就是干净地观察模型在 RL 过程中的自然演化。下面是实际用的提示模板(翻译大意):

<think> 推理过程写在这里 </think>
<answer> 答案写在这里 </answer>

User: {把这里换成具体的推理问题}
Assistant:

就这么简单的设定,结果非常惊人。在 AIME 2024(美国数学邀请赛)这个高难基准上,模型的平均 pass@1 成绩一路飙升;再配合自一致性解码(self-consistency)多次采样投票,成绩进一步拔高,远远超过了 AIME 所有人类参赛者的平均水平。除了数学,R1-Zero 在编程竞赛和研究生级别的生物、物理、化学问题上同样表现出色。

15.6%

训练初期
AIME pass@1

77.9%

训练后
AIME pass@1

86.7%

配合自一致性解码
(cons@16)

🔄 自进化行为:思考时间自己越变越长

是什么

随着训练推进,R1-Zero 每条回答的平均长度稳步增长——从几百 token 涨到上万 token。这完全是模型内在自适应的结果,作者没有写任何规则去要求它「想久一点」。

为什么

因为奖励只看答案对错,而想得更久、多探索几条路、回头验证一遍,客观上能提高答对的概率。于是 RL 自然而然地「奖励」了那些更长、更细致的推理。更长的思考时间,催生出更复杂的行为:反思式推理、系统性地尝试多种备选方案。

例子

就像一个学生做难题,刚开始草草写两行就交卷,慢慢学会了「先列几种思路、算完回头检查一遍、发现不对再换个方法」。没人教这套流程,但因为这样得分更高,他自己摸索出来了。

R1-Zero 的自进化闭环:奖励只在末端「卡答案」,中间怎么想完全放开,模型于是自己学会了「想得更久、更细」。

💡 论文原话的精神强化学习的力量与美正在于此:我们没有教模型如何解题,只是给了它正确的激励,它就自主发展出了高级的解题策略。这提醒我们,RL 有潜力把 LLM 的能力解锁到更高层次。

「顿悟时刻」(Aha Moment)

训练途中,模型突然学会了「等一下,我好像错了」——这是全文最戏剧性的一幕。

在训练某个中间版本时,作者观察到一个被称为「顿悟时刻」(aha moment) 的现象:模型在反思时,「wait(等等)」这个词的使用频率突然激增。这标志着推理模式发生了一次明显的转变,清晰地展示了 R1-Zero 的自我进化过程。论文里给了一个实例:模型在解一个含嵌套根号的方程时,算到一半突然冒出来一句——

🤯 模型自己写下的话(论文 Table 1 实例) 「Wait, wait. Wait. That's an aha moment I can flag here.(等等、等等、等等。这里有个顿悟时刻我得标记一下。)Let's reevaluate this step by step…(让我们一步步重新评估……)」
模型学会了用一种拟人化的语气来「重新思考」。作者说,这对他们自己也是一个顿悟时刻——让人亲眼见证了 RL 的力量与美。

🔍 「反思词频率」说明了什么

是什么

作者请三位人类专家共同确定了一组「反思类词汇」——包括 wait、mistake、however、but、retry、error、verify、wrong、evaluate、check(等等、错误、然而、但是、重试、出错、验证、错的、评估、检查)。然后统计这些词在训练全程中出现的频率。

为什么

这些词是「自我监控」行为的语言指纹。一个会说「等等,这步好像错了,我验证一下」的模型,本质上是在监督自己的推理过程。它们的频率上升,等于客观证据表明反思和自我纠错的能力正在涌现,而不是研究者的主观感觉。

例子

具体到「wait」一词:训练早期几乎从不出现;在第 4,000~7,000 步之间零星冒头;到第 8,000 步之后频率猛增。这条曲线就像一个孩子从「闷头往下写」到「会停下来怀疑自己」的成长轨迹。

📌 一个重要细节:能力在 8.2k 步「跳变」训练中作者把单条回答的最大长度从 32,768 token 在第 8.2k 步提到了 65,536 token。正是在这一步,模型的性能和回答长度都出现了明显跃升——这和「wait」词频在第 8,000 步后激增的时间点相互印证,说明给够「思考空间」是反思行为爆发的关键条件之一。

DeepSeek-R1:多阶段训练管线

R1-Zero 很能推理但「不好好说话」。R1 用一条四阶段管线,把推理能力和人类偏好缝合到一起。

R1-Zero 的问题前面说过:可读性差、中英文混杂(因为底座 V3 在中英双语上训练),而且它纯靠规则奖励、只盯着推理任务,所以在写作、开放域问答这些更广的领域表现有限。为解决这些问题,作者设计了 DeepSeek-R1 的多阶段管线,整体经历 Dev1 → Dev2 → Dev3 三个中间检查点,最后到 R1。

DeepSeek-R1 的四阶段管线。上排是每个阶段做了什么,下排是对应解决的问题。R1 由此「继承」了 R1-Zero 的推理力,又补上了可读性与通用能力。

🪜 四个阶段分别在做什么

①
冷启动 SFT(→ Dev1):先收集数千条具有「对话式、人类对齐的思考过程」的冷启动数据做监督微调。对比 R1-Zero,Dev1 的指令遵循明显变强(IF-Eval、Arena-Hard 提升);但因冷启动数据量有限,推理能力反而略有回退(尤其 AIME 下降)。这是「先学会好好说话」付出的暂时代价。
②
推理向 RL(→ Dev2):用规则奖励做强化学习,并引入语言一致性奖励压制中英混杂。Dev2 在代码、数学、STEM 等需要硬推理的基准上大幅跃升,而像 AlpacaEval 2.0 这类通用偏好基准只是小幅改善——说明推理向 RL 主要补推理,对用户偏好影响有限。
③
拒绝采样 + SFT(→ Dev3):把推理和非推理数据(含大规模写作语料、代码工程数据)一起喂进 SFT。Dev3 在 AlpacaEval 2.0 和 Aider-Polyglot 上明显进步,既会推理也会写作。
④
全面 RL(→ R1):在 Dev3 上用「推理向 + 通用」混合数据做最终 RL。此时数学/代码只小幅提升(因为前面已经强化够了),最大的进步在通用指令遵循和用户偏好上:AlpacaEval 2.0 提升 25%、Arena-Hard 提升 17%。

🧭 一句话抓住这条管线的逻辑每个阶段都在有针对性地补一块短板:先用冷启动让它「说人话」,再用 RL 把推理顶到极限,然后用混合 SFT 补齐写作/通用能力,最后再用一轮全面 RL 把「有用 + 无害」对齐好。R1 因此同时拥有了 R1-Zero 的硬推理和一个助手该有的体面表达。

GRPO 算法与奖励设计

支撑整套训练的两块基石:一个更省的 RL 算法,和一套「不容易被钻空子」的奖励。

⚙️ GRPO(组相对策略优化)

是什么

GRPO 是本文用来训练 R1-Zero 和 R1 的 RL 算法。对每个问题 q,它从旧策略采样一组回答 {o₁, o₂, …, o_G},每个回答由奖励模型(可以是学习来的「模型奖励」,也可以是手工规则的「规则奖励」)打一个分,然后用组内的相对得分来估计每个回答的「优势(advantage)」。

为什么

它是为简化 PPO、降低资源消耗而提出的。传统 PPO 需要额外训练一个价值网络(value model)来估计基线,既费算力又复杂。GRPO 的巧思是:干脆不要价值网络,直接拿「这一组回答的平均分」当基线——比平均好的就是正优势,比平均差的就是负优势。同时它仍用 KL 散度约束,不让新策略偏离参考策略太远,保证训练稳定。

例子

好比老师一次让全班同一道题写 16 种解法,然后说「比班级平均水平好的解法,以后多这么写;差的少这么写」。老师不需要先算出「这题标准应得几分」(那就是价值网络),只用班内横向比较就给出了方向。

GRPO 对比 PPO 的核心区别:一次采一组回答,直接拿「组内相对得分」算优势,省掉了 PPO 那个单独的价值网络。

🎁 奖励设计:为什么坚持用「规则」而非「神经网络」

奖励是训练信号的源头,决定了 RL 优化的方向。R1-Zero 在数学、代码、逻辑这类有确定答案的领域只用规则奖励;到了 R1,才对通用数据额外引入模型奖励。规则奖励由两部分组成:

准确性奖励(Accuracy):答案对不对。数学题要求把答案放进指定格式(如方框)里,用规则直接校验;代码题则用编译器跑预设测试用例,客观判对错。

对/错

确定性验证

格式奖励(Format):是否把推理过程规规矩矩地包在 <think> 标签里。这保证了思考过程被清晰地标出来,既好读也便于后续分析。两种奖励等权重相加。

规范

可解释性

⚠️ 为什么对推理任务坚决不用神经奖励模型作者明确说明:在推理任务上不采用任何神经网络奖励模型(无论结果型还是过程型)。原因是——神经奖励模型在大规模 RL 中容易被「奖励黑客(reward hacking)」:模型会找到漏洞去骗高分,而不是真把题做对。而且重训这种奖励模型既费算力又让训练管线更复杂。规则奖励虽然「笨」,但骗不了。

🌐 R1 的模型奖励:有用性 + 无害性

是什么

对没有确定答案的通用数据(如写作、开放问答),R1 引入两个学习来的奖励模型。有用性奖励只评估最终的回答总结(不干扰中间推理);无害性奖励则评估包括推理过程在内的整个回答,识别潜在风险、偏见或有害内容。

为什么

因为「这篇文章写得好不好」「这个回答有没有用」没法用规则一刀切,只能靠学到人类偏好的模型来判断。但前面说过模型奖励有被钻空子的风险,所以作者很克制:有用性偏好对训练用得很谨慎,而且只在第二阶段 RL 的最后 400 步才引入偏好奖励——发现用太多步反而会触发奖励黑客。

例子

有用性奖励模型用了 66,000 对偏好数据训练;为避免「位置偏见」,每对让 V3 评判 4 次、随机交换 A/B 位置再取平均;还特意让被选中和被拒绝的回答长度相当,免得模型误以为「越长越好」。安全奖励模型则用 106,000 条标了「安全/不安全」的提示训练。这些细节都是在堵奖励黑客的漏洞。

训练超参数全记录

这一节把论文 Methods 里的具体训练数字完整收录,方便复现与对照。前面讲「怎么想」,这里讲「具体怎么训」。

🧪 DeepSeek-R1-Zero 的训练细节

🎚️
基础超参:学习率 3×10⁻⁶,KL 系数 0.001,rollout 采样温度 1。
🔢
采样与长度:每个问题采样 16 个输出;最大长度在第 8.2k 步之前为 32,768 token,之后提升到 65,536 token。正是这次提升,让性能和回答长度在 8.2k 步出现明显跃升。
📦
批次与步数:每个训练步含 32 个不同问题,训练批大小为 512/步;每 400 步用最新策略模型替换参考模型;共训练 10,400 步,相当于 1.6 个 epoch。
⚡
加速技巧:每次 rollout 生成 8,192 个输出,随机切成 16 个 minibatch,每个只训练单个内部 epoch。「一个训练步」指一次策略更新操作。

🥇 第一阶段 RL 的训练细节

🎚️
基础超参:学习率 3×10⁻⁶,KL 系数 0.001,GRPO clip 比例 ε=10,采样温度 1;每题采样 16 个输出、最大长度 32,768;每步 32 题(批大小 512),每 400 步替换参考模型,rollout/minibatch 设置同上。
🈳
语言一致性奖励:为缓解语言混杂,引入该奖励,定义为 CoT 中目标语言词数占总词数的比例(Num(目标语言词) / Num(总词)),直接加到最终奖励上,对推理和非推理数据都适用。

⚖️ 一个诚实的权衡论文的消融实验显示,加入语言一致性奖励会让模型性能略有下降;但因为它更符合人类偏好、可读性更好,作者认为这个代价值得。这是一处「为了好用而主动牺牲一点点分数」的取舍。

✂️ clip 比例为什么关键作者强调 clip 比例在训练中起关键作用:取值过低会截断大量 token 的梯度,从而损害模型性能;取值过高则可能引发训练不稳定。需要在两者间小心平衡。

🥈 第二阶段 RL 的训练细节

🌡️
温度降到 0.7:第二阶段保留第一阶段大部分参数,关键差异是采样温度从 1 降到 0.7——因为作者发现此阶段温度过高会导致生成不连贯。
🔢
步数安排:共 1,700 个训练步,其中通用指令数据和基于偏好的奖励只在最后 400 步引入。原因是:用更多步数跑模型偏好奖励反而会触发奖励黑客。
🧮
奖励组合(第二阶段):总奖励 = 推理奖励 + 通用奖励 + 语言奖励;其中推理奖励 = 规则奖励,通用奖励 = 模型奖励 + 格式奖励。推理数据沿用 R1-Zero 的规则奖励,通用数据用奖励模型引导。

🎁 两个奖励模型的训练参数

有用性奖励模型(pairwise 成对损失):用 66,000 对偏好数据;每对让 V3 评判 4 次并随机交换 A/B 位置取平均(消除位置偏见),只保留分差 Δ>1 的对;保证被选/被拒回答长度相当。架构与 R1 一致,加一个预测标量分数的奖励头。

66k

对 · 成对

训练超参:批大小 256,学习率 6×10⁻⁶,在训练集上跑 单个 epoch;训练时最大序列长 8,192 token,推理时不设显式上限。

8192

最大序列长

安全奖励模型(pointwise 逐点损失):用 106,000 条带「安全/不安全」标注的提示训练。与有用性的成对损失不同,它用逐点方法直接区分安全与否。其余超参与有用性模型相同。

106k

条 · 逐点

🔁 处理无可靠信号的任务对那些拿不到可靠奖励信号的任务,本文的做法是:用人工标注创建监督数据,且只跑数百步 RL。作者希望未来能获得更鲁棒的奖励模型来解决这类问题。

各发展阶段的实验结果

把 R1-Zero、Dev1/2/3、最终 R1 放在一起看,能清楚看到每个阶段「补」了什么。

下面是论文 Table 2 的完整数据(全部 21 项基准)。读这张表的诀窍是:横着看一行,就能看出某项能力是在哪个阶段被拉起来的。例如代码和数学主要在 Dev2 起飞,而通用偏好类(AlpacaEval、Arena-Hard)则在最终 R1 阶段才完成质变。表中蓝色高亮表示该行最优值。

📚 评测覆盖的完整基准清单论文在 21 个基准上评测:英文/通用——MMLU、MMLU-Redux、MMLU-Pro、DROP、IF-Eval、GPQA Diamond、SimpleQA、FRAMES、AlpacaEval 2.0、Arena-Hard;代码——LiveCodeBench(2024-08~2025-01)、Codeforces、SWE-bench Verified、Aider-Polyglot;数学——AIME 2024、MATH-500、CNMO 2024;中文——CLUEWSC、C-Eval、C-SimpleQA。

基准(指标)	R1-Zero	Dev1	Dev2	Dev3	R1
MMLU (EM)	88.8	89.1	91.2	91.0	90.8
MMLU-Redux (EM)	85.6	90.0	93.0	93.1	92.9
MMLU-Pro (EM)	68.9	74.1	83.8	83.1	84.0
DROP (3-shot F1)	89.1	89.8	91.1	88.7	92.2
IF-Eval(Prompt Strict)	46.6	71.7	72.0	78.1	83.3
GPQA Diamond (Pass@1)	75.8	66.1	70.7	71.2	71.5
SimpleQA (Correct)	30.3	17.8	28.2	24.9	30.1
FRAMES (Acc.)	82.3	78.5	81.8	81.9	82.5
AlpacaEval 2.0(LC-winrate)	24.7	50.1	55.8	62.1	87.6
Arena-Hard(GPT-4-1106)	53.6	77.0	73.2	75.6	92.3
LiveCodeBench(Pass@1-COT)	50.0	57.5	63.5	64.6	65.9
Codeforces(百分位)	80.4	84.5	90.5	92.1	96.3
Codeforces(评分)	1444	1534	1687	1746	2029
SWE-bench Verified	43.2	39.6	44.6	45.6	49.2
Aider-Polyglot (Acc.)	12.2	6.7	25.6	44.8	53.3
AIME 2024 (Pass@1)	77.9	59.0	74.0	78.1	79.8
MATH-500 (Pass@1)	95.9	94.2	95.9	95.4	97.3
CNMO 2024 (Pass@1)	88.1	58.0	73.9	77.3	78.8
CLUEWSC (EM)	93.1	92.8	92.6	91.6	92.8
C-Eval (EM)	92.8	85.7	91.9	86.4	91.8
C-SimpleQA (Correct)	66.4	58.8	64.2	66.9	63.7

论文 Table 2 完整数据。注意 Dev1 在 AIME/CNMO 上的回退,以及 R1 在 AlpacaEval/Arena-Hard 上的飞跃。原论文中加粗值表示统计显著(t 检验 P<0.01)。

📉
Dev1 的「回退」是预期内的:冷启动 SFT 让指令遵循变强,但因数据量小,AIME 从 77.9 掉到 59.0、CNMO 从 88.1 掉到 58.0。这说明「先学好好说话」会暂时牺牲一点纯推理。
🚀
Dev2 是推理的引爆点:推理向 RL 之后,代码、数学、STEM 全线回升并超越 Dev1,而通用偏好基准只小幅动——印证了「推理向 RL 主要补推理」。
🎨
Dev3 补通用能力:混入非推理语料后,Aider-Polyglot 从 25.6 跳到 44.8,AlpacaEval 也明显上升。
🏆
R1 的临门一脚在「偏好」上:最终 RL 后数学/代码只微涨(前面已榨干),但 AlpacaEval 2.0 提升 25%、Arena-Hard 提升 17%,Codeforces 评分冲到 2029。

🧬 还有一招:把强推理「蒸馏」给小模型论文还做了一件事——用大模型涌现出的推理模式,去引导和增强更小模型的推理能力。蒸馏出的小模型表现超过它们原本的指令微调版本。意义在于:让强推理能以更低的算力和能耗被更广泛地使用,也给研究社区提供了理解长 CoT 推理机制的宝贵资源。

局限、安全声明与未来

论文很诚实地列出了 R1 还做不好的地方,以及纯 RL 方法本身的天花板。

🛡️ 伦理与安全声明作者明确承认风险:R1 可能被越狱攻击(jailbreak),而增强的推理能力会让它生成的危险内容(如爆炸物制造方案)更具可操作性;公开模型也可能被进一步微调而破坏内置的安全保护。综合评估结论是:R1 自身的安全水平与其他 SOTA 模型相当,处于中等水平(可比 GPT-4o);一旦配合外部风控系统,安全等级可提升到更高标准。

🚧 具体能力局限

🔧
结构化输出与工具使用:R1 的结构化输出能力仍逊于现有模型,而且不能调用搜索引擎、计算器等工具来辅助。不过作者认为为「结构化输出 + 工具使用」搭一个 RL 环境并不难,下个版本会解决。
🎚️
Token 效率(过度思考):不同于多数投票或蒙特卡洛树搜索(MCTS),R1 会按问题难度动态分配算力——简单题少花 token,难题多花。但简单问题上仍会出现「想太多(overthinking)」,效率还有优化空间。
🌍
语言混杂:R1 目前为中英文优化,处理其他语言的查询时可能出现语言混杂(比如查询是别的语言,它却用英文推理和回答)。这可能源自底座 V3 Base 主要用中英文训练。
📝
对提示敏感:评估发现 R1 对提示很敏感,少样本(few-shot)提示反而会持续拉低它的表现。作者建议用户直接描述问题、用零样本(zero-shot)设定、并明确指定输出格式,效果最好。
💻
软件工程任务:因评估耗时长、拖慢 RL 效率,大规模 RL 还没充分用在软工任务上,所以 R1 在软工基准上相比 V3 提升不大。未来会用拒绝采样或异步评估来改善。

⚠️ 纯 RL 方法的根本挑战:奖励黑客

是什么

纯 RL 的成败取决于奖励信号是否可靠。本文靠「推理领域的规则奖励」保证了可靠性,但对写作这类任务,可靠的奖励模型很难构造。一旦奖励由模型(而非预设规则)给出,随训练推进就越来越容易被策略模型钻空子——找到捷径去「黑」掉奖励模型。

为什么

这意味着:对于无法被可靠奖励模型评估的复杂任务,纯 RL 的扩展仍是一个开放难题。本文的折中办法是——对拿不到可靠信号的任务,改用人工标注做监督数据,RL 只跑几百步。作者期望未来能造出更鲁棒的奖励模型来根治这个问题。

例子

就像考试如果改成「老师凭感觉打分」,聪明的学生会去研究老师的喜好(字写漂亮、堆专业词)来骗分,而不是真把知识学扎实。规则评分(选择题机器判卷)就没这个空子可钻——这正是论文坚持规则奖励的原因。

🌅 结论与展望

论文的核心结论是:预训练好的检查点本身就蕴含着巨大的复杂推理潜力,而解锁它的钥匙不在于大规模人工标注,而在于——提供足够难的推理问题、一个可靠的验证器、以及充足的算力来做 RL。自我验证、反思这些复杂推理行为,会在 RL 过程中「有机地」自发涌现。

展望未来:对于任何能被验证器有效评估的任务,无论它对人类有多难,具备这种 RL 技术的机器都有望通过试错迭代地优化、最终超越人类。真正的难点留给了那些「难以构造可靠奖励」的任务。此外,把工具(编译器、搜索引擎,甚至真实世界的化学/生物试剂)融入推理过程,被认为是极具前景的下一步。

开源与可复现信息

论文同时公开了模型权重、数据样本与技术栈,这一节把这些信息完整收录。

⚖️
模型权重:DeepSeek-R1-Zero 和 DeepSeek-R1 的训练权重以 MIT 许可证在 GitHub(deepseek-ai/DeepSeek-R1)发布,并归档到 Zenodo。
📂
数据样本:用于拒绝采样和 RL 提示的数据样本同样在该 GitHub 仓库提供;完整的数据生成方法学统计见补充材料 2.3。
🧰
推理脚本:在 deepseek-ai/DeepSeek-V3 仓库发布。
🔬
技术栈:神经网络用 PyTorch 开发,分布式框架基于内部框架 HAI-LLM,推理框架基于 vLLM。数据分析用 Python 3.8、NumPy 1.23.1、Matplotlib 3.5.2、TensorBoard 2.9.1。
👥
作者与利益声明:作者来自 DeepSeek-AI 团队(杭州),通讯作者梁文锋(Wenfeng Liang)。作者声明无竞争利益,且不会就本文内容申请专利。

🌍 开源的意义作者特别指出:开源这些指令微调版本能为研究社区理解长 CoT 推理模型的内在机制提供宝贵资源,并推动更强推理模型的发展。蒸馏出的小模型则让强推理能以更低能耗被更广泛使用。

整理自 Nature 论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》(Vol 645, 2025-09-18,DeepSeek-AI 团队)
处理方式:逐字整理 + 概念展开(是什么/为什么/例子)与可视化 · 原文事实与数据全部保留,补充解释为该领域公认常识或对原文逻辑的合理延伸
DOI: 10.1038/s41586-025-09422-z · 权重 MIT 开源