Junie's Blog

如果你用过 DeepSeek R1，一定会对它输出答案前那段长长的 <think> 过程印象深刻。它有时会自我否定，有时会换个思路重新推导，展现出极强的逻辑魅力。

许多人第一次看到这种长程思考时，会以为这是一种巧妙的工程提示手段。仿佛只要在系统后台默默加上一句“请一步步仔细思考并将过程写在标签内”，大模型就能立刻变聪明。事实远非如此简单，这种思维链的涌现代表了底层训练范式的一次根本性颠覆。

过去几年里，科技大厂想要让模型变得更聪明，普遍采用的是监督微调（SFT） 的方法。这就像是传统的填鸭式教育，公司花重金聘请大量高学历的人类专家，手写出成千上万道复杂数学题的详细解题步骤。大模型通过海量阅读这些“标准答案”来模仿人类的思考格式。这种做法的瓶颈非常明显，模型的上限被框死在了标注人员的水平里，而且高质量的人工标注数据极其昂贵且难以持续产出。

DeepSeek 团队决定彻底抛弃这条依赖人类手写数据的传统路径。他们采用了一种极其硬核的纯强化学习路线。

想象一下把一个毫无经验的模型扔进一个只有数学题和编程题的训练场。这里没有解题步骤，也没有人类导师指点迷津，系统只认一个死理，就是最终结果。如果模型算出的数学答案是对的，或者写出的代码能够顺利编译运行，系统就给它发一个巨大的奖励。反之，只要结果不对，无论前面的推导看起来多么天花乱坠，都会面临惩罚。

选择数学和代码作为突破口是极其聪明的决策。这两个领域的对错是绝对客观的，不需要人类主观评判。这就完美避开了模型学会用花言巧语骗取高分的问题，让纯粹的机器自动评判成为可能。

在这样残酷且明确的奖惩机制下，奇迹般的“涌现”发生了。

大模型在经历了成千上万次的试错后，自己领悟到了一个提高得分胜率的生存法则。它发现如果像以前那样看到问题就直接脱口而出，往往会踩坑挨罚。为了拿到奖励，它自发地学会了把复杂问题拆解成几个小步骤，学会在得出结论前先自我反驳一下，甚至在发现逻辑走不通时推翻重来。

我们在屏幕上看到的那些带有强逻辑性的思维链，根本不是工程师硬塞给它的模板，而是模型在算力无情地鞭挞下，为了追求最终正确率而进化出的一种高级解题策略。

当然，道理很多人都懂，工程落地却难如登天。这种大规模的强化学习极其消耗算力资源。传统的强化学习算法在训练时，除了要运行正在做题的主模型，还要在内存里同时塞进一个体型庞大的“裁判模型”来实时评估状态，这往往会导致显存瞬间被撑爆，训练极其不稳定。

DeepSeek 能够把这条路走通，靠的是他们自研的 GRPO 算法。这项技术极其精妙地砍掉了那个冗余的裁判模型，让系统可以直接通过对比主模型多次不同尝试的相对好坏来分配奖励。这极大地释放了显存空间，使得这种基于海量试错的强化学习在有限的算力下变得切实可行。

回过头来看，DeepSeek R1 的成功证明了真正的逻辑推理能力无法靠模仿获得。当我们给人工智能设定了绝对客观的目标，并赋予它足够自由的试错空间与算力支持时，它完全有能力自己摸索出通向真理的思考路径。

DeepSeek 是如何学会“思考”的

评论