OpenAI前副总裁撰文评价DeepSeek-V3:是真正的创新,而非竞争对手
在这里,我不会重点讨论DeepSeek是否对Anthropic等美国AI公司构成威胁(尽管我认为关于他们威胁美国AI领导地位的许多说法被大大夸大了)。中国人工智能公司DeepSeek已经在某些方面成功接近了美国前沿AI模型的性能,而且成本更低。
人工智能发展中的三大动态
在我提出政策论点之前,我将描述三个了解AI系统至关重要的基本动态:
- 规模定律。AI的一个特性——这是我和我的共同创始人曾在我们还在OpenAI工作时率先记录下来的——是,在其他条件相同的情况下,扩大AI系统的训练可以在各种认知任务上带来稳定的、更好的结果。例如,一个价值100万美元的模型可能解决20%的重要编码任务,1000万美元的模型可能解决40%,1亿美元的模型可能解决60%,等等。这些差异在实践中往往有巨大的影响——另一个10倍的增幅可能对应的是本科生和博士生之间的技能水平差异——因此,各公司正在大力投资于训练这些模型。
- 曲线的移动。这个领域不断提出各种新想法,不论大小,旨在提升效能或效率:这可能是对模型架构的改进(例如对当前所有模型使用的基础Transformer架构的小调整),也可能是更加高效地在底层硬件上运行模型的方法。新一代硬件也具有相同的效果。通常,这会导致曲线的移动:如果创新是一个2倍的“计算乘数”(CM),那么它允许你用500万美元得到40%的编码任务完成度,而不是1000万美元;或者用5000万美元得到60%,而不是1亿美元,等等。每一家前沿AI公司都会定期发现许多这样的计算乘数:通常是小的(~1.2倍),有时是中等的(~2倍),而偶尔会有非常大的(~10倍)。由于拥有更智能的系统价值极高,这种曲线的移动通常会导致公司在训练模型上投入更多,而不是更少:成本效益的提高最终被完全用于训练更聪明的模型,仅受公司财务资源的限制。人们自然会倾向于认为“首先某样东西很贵,然后它变便宜”——仿佛AI是一个质量恒定的单一事物,且当它变便宜时,我们将使用更少的芯片来训练它。但重要的是规模曲线:当它发生移动时,我们只是更快地穿越它,因为曲线末端的价值如此之高。2020年,我的团队发布了一篇论文,提出由于算法进展,曲线的移动大约是每年1.68倍。自那以后,这一进展可能加速了;而且它没有考虑效率和硬件因素。我猜现在的数字可能是每年约4倍。另一个估计可以参见这里。训练曲线的变化也会影响推理曲线,因此,保持模型质量不变的情况下,价格大幅下降已经持续多年。例如,Claude 3.5 Sonnet在发布时的15个月后超过了原版GPT-4,在几乎所有基准测试中都优于GPT-4,且其API价格低约10倍。
- 范式的转变。偶尔,正在扩展的基本事物会发生变化,或者训练过程中加入了新的扩展方式。从2020年到2023年,主要的扩展对象是预训练模型:这些模型在不断增大的互联网文本基础上进行训练,并在其上进行少量额外训练。而在2024年,使用强化学习(RL)训练模型以生成思维链条的理念成为了新的扩展焦点。Anthropic、DeepSeek以及许多其他公司(可能最著名的是OpenAI,他们在9月发布了o1-preview模型)发现,这种训练大大提升了在一些特定、客观可测量的任务上的表现,比如数学、编码竞赛以及类似这些任务的推理。这一新范式涉及从普通的预训练模型开始,然后在第二阶段使用RL增加推理能力。重要的是,因为这种类型的RL是新的,我们仍处于规模扩展的初期:第二阶段的投入对所有参与者来说都很小,投入100万美元而非10万美元就足以带来巨大的提升。各公司现在正迅速推进第二阶段的规模扩展,达到数百万甚至数十亿美元,但至关重要的是,我们正处于一个独特的“交叉点”,在这里有一种强大的新范式,尚处于规模扩展的初期,因此可以迅速带来大幅提升。
DeepSeek的模型
上面提到的三大动态可以帮助我们理解DeepSeek最近的发布。大约一个月前,DeepSeek发布了一个名为“DeepSeek-V3”的模型,这是一个纯粹的预训练模型——上文提到的第3阶段。然后,上周他们发布了“R1”,增加了第二阶段。虽然我们无法从外部完全确定这些模型的所有细节,但以下是我对这两个发布的最佳理解。
DeepSeek-V3 实际上是一个真正的创新,应该在一个月前就引起人们的注意(我们确实注意到了)。作为一个预训练模型,它似乎在一些重要任务上接近美国前沿模型的性能,同时训练成本大大低于美国的同类模型(尽管我们发现Claude 3.5 Sonnet在一些其他关键任务上,尤其是实际编码任务中,表现明显更好)。DeepSeek的团队通过一些真正且令人印象深刻的创新实现了这一点,主要集中在工程效率方面。特别是,他们在管理“键值缓存”方面进行了创新,并使得“专家混合”方法(mixture of experts)得到了比以往更深入的应用。
然而,重要的是要更仔细地观察:
DeepSeek并没有“用600万美元做到了美国AI公司需要数十亿美元才能做的事”。我只能代表Anthropic发言,但Claude 3.5 Sonnet是一个中型模型,训练成本为数千万美元(我不会给出确切数字)。此外,Sonnet的训练并没有涉及到更大或更昂贵的模型(这与一些流言相反)。Sonnet的训练发生在9到12个月前,而DeepSeek的模型是在11月或12月训练的,Sonnet在许多内部和外部评估中仍然明显领先。因此,我认为一个公平的说法是:“DeepSeek生产了一个接近美国模型性能(大约7-10个月前的版本)的模型,且成本显著低得多(但远未达到人们所建议的比率)”。
如果历史上成本曲线下降的趋势是每年约4倍,这意味着按常规的历史成本降低趋势(如2023年和2024年发生的情况),我们现在应该会看到一个比3.5 Sonnet/GPT-4便宜3-4倍的模型。由于DeepSeek-V3不如这些美国前沿模型——假设它在扩展曲线上大约落后2倍,这对DeepSeek-V3来说是相当慷慨的——那么,DeepSeek-V3的训练成本比一年前开发的美国模型低8倍是完全正常、符合趋势的。如果按DeepSeek的训练成本来看,它们最多也只是符合趋势,可能甚至不到这个水平。例如,这比原版GPT-4和Claude 3.5 Sonnet推理价格差异(10倍)还要小,而3.5 Sonnet是比GPT-4更好的模型。所有这些表明,DeepSeek-V3并不是一个独特的突破,或是从根本上改变了大语言模型经济学的事件;它只是一个在持续成本降低曲线上的预期节点。不同之处在于,第一个展示出预期成本降低的公司是中国公司,这在地缘政治上具有重要意义。然而,美国公司很快也会效仿——而他们不会通过复制DeepSeek来实现,而是因为他们也在实现通常的成本降低趋势。
DeepSeek和美国AI公司都比过去有更多资金和更多芯片来训练他们的主打模型。这些额外的芯片用于研发以开发模型背后的理念,有时还用于训练尚未准备好的更大模型(或者需要多次尝试才能训练成功)。据报道——我们无法确认这是否属实——DeepSeek实际上拥有50,000颗Hopper芯片,我猜这与主要的美国AI公司拥有的数量(例如,它比xAI的“Colossus”集群少2-3倍)大致相当。这50,000颗Hopper芯片的成本约为10亿美元。因此,DeepSeek作为公司整体的开销(与训练单个模型的开销区别开来)与美国AI实验室的开销并没有本质区别。
值得注意的是,“扩展曲线”分析有些过于简化,因为模型是有所不同的,具有不同的优势和劣势;扩展曲线的数字是粗略的平均值,忽略了许多细节。我只能谈论Anthropic的模型,但正如我上面所暗示的,Claude在编码和与人互动的设计风格方面非常优秀(许多人用它提供个人建议或支持)。在这些和一些其他任务上,DeepSeek根本无法与其相提并论。这些因素并没有体现在扩展曲线的数字上。
R1模型
R1是上周发布的模型,引发了广泛的公众关注(包括Nvidia股价下降约17%),从创新或工程角度来看,它远不如V3那么有趣。R1增加了训练的第二阶段——强化学习,这是前一部分中提到的第3阶段——并基本上复制了OpenAI通过o1模型所做的工作(它们似乎在规模和结果上相似)。然而,由于我们仍处于扩展曲线的早期阶段,多个公司在拥有强大的预训练模型的基础上能够生产这种类型的模型。因此,给V3训练出R1可能非常便宜。我们现在处于一个有趣的“交叉点”,在这个交叉点上,暂时有多个公司能够生产出优秀的推理模型。但随着大家在这些模型上进一步向扩展曲线的上游推进,这种情况很快将不再成立。
出口管制
目前,尽管每当曲线发生变化、训练相同智能水平的模型成本迅速下降,但公司在训练强大AI模型上的支出却越来越高。训练更智能的模型的经济价值如此巨大,以至于任何成本上的节省几乎会立即被消耗——它们会被重新投入到训练更智能的模型中,以相同巨大的成本,达到原计划的支出水平。美国实验室如果尚未发现这些效率创新,DeepSeek所开发的创新很快会被美国和中国的实验室应用,用于训练数十亿美元的模型。这些新模型将比原本计划训练的数十亿模型表现更好——但它们的花费仍然是数十亿美元。这些支出将继续增加,直到我们训练出比几乎所有人类在各个方面都更智能的AI。
训练出比几乎所有人类更智能的AI需要数百万个芯片,至少数百亿美元的资金,而且最可能在2026-2027年间实现。DeepSeek的发布并未改变这一点,因为它们基本上处于预期的成本下降曲线之内,这在这些计算中早已考虑到。
这意味着在2026-2027年,我们可能会进入两个截然不同的世界之一。在美国,多个公司肯定会拥有数百万个芯片(花费数百亿美元)。问题在于中国是否也能获得数百万个芯片。
DeepSeek的表现并不意味着出口管制失败。正如我前面所说,DeepSeek拥有适量的芯片,因此它们能够开发并训练出强大的模型并不令人惊讶。它们并没有明显比美国AI公司更受资源限制,出口管制也不是促使他们“创新”的主要因素。DeepSeek的团队只是非常有才华的工程师.
观察DeepSeek目前拥有的芯片也很有启发。根据SemiAnalysis的报道,这些芯片包括H100、H800和H20,总数达到50,000颗。Nvidia表示DeepSeek的进展是“完全符合出口管制规定的”。H800在2022年的首次出口管制中是被允许的,但在2023年10月的更新后被禁运,因此这些芯片可能是在禁令之前运送的。H20在训练方面效率较低,但在采样方面效率更高所有这些说明,DeepSeek的AI芯片阵容中有相当一部分是那些还未被禁运的芯片。
鉴于我对出口管制和美国国家安全的关注,我想明确一点。我并不认为DeepSeek本身是对手,重点也不是特别针对他们。在他们接受的采访中,他们看起来像是聪明、有好奇心的研究人员,只是想开发有用的技术。