1. 首页
  2. 知识

DeepSeek 改变游戏规则

OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册

人工智能刚刚迎来了自己的“斯普特尼克时刻”。

上周,中国大型语言模型(LLM)初创公司 DeepSeek 在低调运营后正式亮相,令美国市场大感意外。

DeepSeek 比 ChatGPT 等其他 LLM 更快、更智能、资源占用更少。无论是内容创作还是基础查询,它的速度都远超前代模型。更重要的是,该模型具备“自主思考”能力,因此据称其训练成本比之前的模型更低。

听起来很棒,对吧?但如果你是一家押注于美国 AI 产业的科技公司,那就不一定了。市场在周一对这一进展作出了剧烈反应。科技股集体暴跌,市值蒸发超过 1 万亿美元——相当于比特币市值的一半。其中,英伟达(Nvidia)股价单日重挫 17%,市值损失 5890 亿美元,创下美国股市历史上最大单日市值损失纪录。英伟达及其他科技股的下跌拖累纳斯达克综合指数当日下跌 3.1%。

且市场的抛售并未局限于科技股。能源股同样遭受重创,自然气、核能和可再生能源企业 Vistacorp(在德克萨斯州有大规模业务)股价暴跌约 30%,而正在重启三里岛核电站以为微软数据中心供能的 Constellation Energy 股价也下跌超过 20%。

市场对 DeepSeek 的担忧很简单:LLM 计算效率的提升速度远超预期,其直接后果是市场对 GPU、数据中心及能源的需求减少。而巧合的是,这一模型爆红的时间点正好与前总统特朗普宣布 5000 亿美元的“星门计划”(Project Stargate)相隔数日,该计划旨在加速美国 AI 基础设施建设。

对于 DeepSeek 的影响,专家们的看法不一。一方面,有人认为这可能是 AI 行业的重大利好,而非灾难——就像内燃机效率的提升并未减少汽车需求,反而推动了行业增长。

另一方面,社交媒体上流传的关于 DeepSeek 训练成本的数据可能具有误导性。尽管新模型确实降低了成本,但远没有传言中的那么夸张。


认识 DeepSeek


DeepSeek 由中国工程师梁文峰(Liang Wenfeng)于 2023 年 5 月创立,并获得对冲基金 High-Flyer 的投资,该基金也是梁文峰在 2016 年创办的公司。DeepSeek 于 1 月 20 日开源了首个模型 DeepSeek-R1,并在上周末迅速走红网络。

DeepSeek-R1 具备多项独特功能,使其与其他模型区别开来,包括:

  • 语义理解:DeepSeek 具备“读懂弦外之音”的能力。它采用“语义嵌入”(semantic embeddings)技术,可以推测查询背后的意图和更深层的语境,从而提供更细致入微的回答。
  • 跨模态搜索:它能够解析并交叉分析不同类型的媒体内容,意味着可以同时处理文本、图片、视频、音频等多种数据。
  • 自动适应:DeepSeek 具备持续学习和自我训练的能力——输入的数据越多,它的适应性就越强。这可能使其在不需要频繁重新训练的情况下依然保持可靠性。换句话说,我们可能不再需要像以往那样定期输入新数据,因为模型可以在运行过程中自主学习和调整。
  • 海量数据处理:据称,DeepSeek 可处理 PB 级(Petabyte)数据,使其能够应对其他 LLM 可能难以处理的庞大数据集。
  • 更少的参数:DeepSeek-R1 总参数量为 671 亿,但每次推理仅需 370 亿个参数,而 ChatGPT 每次推理所需的参数量估计在 5000 亿到 1 万亿之间(OpenAI 并未公开具体数字)。参数是指模型在训练过程中用于引导和优化学习的输入及组件。


除了上述特点外,DeepSeek 最吸引人的地方在于其自我调整和自主学习的能力。这一特性不仅节省时间和资源,还为 AI 代理的发展奠定了基础,使其能够应用于机器人、自主驾驶、物流等领域的自治 AI 系统。

Pastel 创始人兼 CEO Jeffrey Emmanuel 在其文章《做空英伟达的理由》(The Short Case for Nvidia Stock)中对此突破做出了精彩总结:

“通过 R1,DeepSeek 基本上攻克了 AI 领域的一座‘圣杯’:让模型在没有大规模监督数据集的情况下实现逐步推理。他们的 DeepSeek-R1-Zero 实验展示了一项惊人的成就:通过纯强化学习和精心设计的奖励函数,他们成功使模型完全自主地发展出复杂的推理能力。这不仅仅是解决问题——模型能够自然地生成长链推理过程,自我验证其工作,并在处理更困难的问题时分配更多计算资源。”


DeepSeek 让华尔街恐慌的真正原因


DeepSeek 确实是 ChatGPT 的增强版,但这并不是上周让金融界震惊的真正原因——真正让投资者恐慌的是该模型的训练成本。

DeepSeek 团队自称,该模型的训练成本仅为560 万美元,但这一数据的可信度存疑。

从 GPU 小时(即每块 GPU 每小时运行的计算成本)来看,DeepSeek 团队声称,他们使用了 2,048 块英伟达 H800 GPU,总计 278.8 万 GPU 小时,完成了预训练、上下文扩展及后训练,计算成本约 2 美元 /GPU 小时。

相比之下,OpenAI CEO 山姆·奥特曼(Sam Altman)表示,GPT-4 的训练成本超过 1 亿美元。GPT-4 的训练周期为 90 至 100 天,使用了 25,000 块英伟达 A100 GPU,总计 5,400 万至 6,000 万 GPU 小时,每小时计算成本约 2.50 至 3.50 美元 /GPU 小时。

因此,DeepSeek 训练成本的“标价”与 OpenAI 相比,直接引发了市场的恐慌性抛售。投资者纷纷自问:如果 DeepSeek 能以 OpenAI 训练成本的一小部分打造出更强大的 LLM,那么我们为何还要在美国斥资数十亿美元建设 AI 计算基础设施?这些所谓的“必要”算力投资,真的有意义吗?AI/HPC 数据中心的投资回报率(ROI)和盈利模式又将何去何从?

下方的图表直观展示了训练 DeepSeek 与 ChatGPT 所需的数据中心每 GW 收入情况,进一步突出了这一问题。


成本


问题在于,我们并不能确定 DeepSeek 真的以如此低的成本完成了模型训练。


DeepSeek 训练成本真的如此之低吗?


然而,DeepSeek 真的只花了 560 万美元训练模型吗?不少业内人士对此表示怀疑,而且理由充分。

首先,在 DeepSeek 的技术白皮书中,团队明确表示,“所述训练成本仅涵盖 DeepSeek-V3 的正式训练,不包括此前在模型架构、算法或数据上的研究和消融实验成本。”换句话说,560 万美元只是最终的训练成本,而在模型优化过程中,还有更多资金投入。

因此,Atreides Management 首席投资官(CIO)加文·贝克(Gavin Baker)直言,“560 万美元的成本数据极具误导性。”

“换句话说,如果一个实验室已经在前期研究上投入了数亿美元,并且拥有更大规模的计算集群,那么确实可以用 560 万美元完成最终训练。但 DeepSeek 显然不止使用了 2,048 块 H800 GPU——他们早期的一篇论文就提到了一个由 10,000 块 A100 组成的集群。因此,一个同样优秀的团队如果想要从零开始,仅凭 2,000 块 GPU 训练出类似 R1 的模型,根本不可能只花 560 万美元。”

此外,贝克指出,DeepSeek 采用了一种名为“知识蒸馏”(distillation)的方法,从 ChatGPT 汲取经验来训练自己的模型。

“DeepSeek 很可能无法在没有 GPT-4o 和 GPT-4o1 完全开放访问的情况下完成训练。”


DeepSeek、能源消耗与杰文斯悖论


尽管 DeepSeek 训练成本仅为 560 万美元的说法存疑,但加文·贝克(Gavin Baker)指出,该模型的多项突破——如自学习、参数更少等——确实使其训练和推理(即 AI 运行成本,行业术语称之为“推理”)变得更加低廉。

贝克声称,使用 DeepSeek-R1 的成本比 ChatGPT 的 o1 版本低 93%,每次 API 调用的费用大幅下降。尽管 93% 这一具体数字是否准确仍有争议,但关键在于,DeepSeek 的推理成本更低,甚至可以在 Mac Studio Pro 等本地硬件上运行。

这才是 DeepSeek 的真正突破——AI 变得更加经济可用。正如一位匿名评论者所说,这感觉就像微软开源了互联网浏览器,从而彻底摧毁了 Netscape 的付费访问模式。

DeepSeek 彻底打开了 AI 的新模式,使 AI 发展进入了一个全新的竞争阶段——“现在的竞争重点已经从 AI 训练转向 AI 推理”,借用 Chamath Palihapitiya 的话来说。


AI 驱动的数据中心与电力行业热潮何去何从?


正如我们在文章前面所提到的,更高效的发动机是否减少了汽油需求,或者对依赖汽车的行业造成了负面影响?

杰文斯悖论(Jevons Paradox)认为,当技术进步提升了资源利用效率时,资源本身的需求反而会上升,因为更低的成本会促使更广泛的应用。比特币矿工对此深有体会——尽管 ASIC 矿机的能效逐年提升,但比特币网络的算力仍然持续增长。

从目前来看,市场迎来了一个更强大的竞争者,但游戏规则并未改变。如果 AI 推理和训练成本下降(而这本就是必然趋势),那么它将解锁更多应用场景,并进一步推动 AI 产业需求增长。

OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册
相关文章
  • 随着区块链技术的发展和数字货币市场的蓬勃发展,越来越多的人开始关注和投资于加密货币。在这个充满活力的市场中,FEG币作为一种新兴的数字资产,备受关注。而FEG币的发行量,作为评估其价值和稳定性的重要指标,也成为了投资者们关注的焦点之一。

    FEG币是一种基于去中心化金融(DeFi)理念的加密货币,其特点是去中心化、匿名性和无需信任第三方。而FEG币的发行量直接影响着其在市场中的流

    2025-01-10 04:03:33
  • 火星财经消息,据 Agglayerzone 在 X 平台发文表示:“过去 30 天内,RWA 市场市值增长了 77.24%, 其中,@0xPolygon 攀升至 RWA 板块第三名的位置。”

    2024-11-22 15:57:38
  • 随着加密货币市场的快速发展,FXC挖矿作为其中的一种投资方式备受关注。伴随着关注度的提高,也有了更多的质疑声音,其中最主要的就是:FXC挖矿是骗局吗?

    在回答这个问题之前,我们需要先了解一下FXC挖矿的基本原理。FXC(假设是一个虚拟货币)挖矿是指通过计算机算力参与虚拟货币网络的运行,并获得相应的货币奖励。简单来说,就是用算力来维护网络安全和进行交易确认,作为回报获得虚拟货币的

    2025-01-24 08:03:11
  • 火星财经消息,据 Coinglass 数据,过去 24 小时内加密货币市场总爆仓金额达 2.81 亿美元,其中多单爆仓 1.73 亿美元,空单爆仓 1.08 亿美元。BTC 爆仓金额为 6557

    2024-11-18 23:55:11
  • 踏入数字货币的大门

    在这个信息爆炸的时代,数字货币已经成为了不可忽视的金融趋势。Bitcoin作为最知名的数字货币之一,引领着整个行业的发展方向。对于许多人来说,数字货币世界似乎遥不可及,充满了未知与风险。Bitcoin交易所App的出现,打破了这一局面,为广大投资者提供了一个安全可靠、便捷快速的数字货币交易平台。

    Bitcoin交易所App致力于为用户打造一

    2024-12-15 14:21:41
  • 火星财经消息,12 月 24 日,马斯克旗下人工智能公司 xAI 宣布完成 60 亿美元 C 轮融资,本轮融资由 a16z、BlackRock、Fidelity、Kingdom Holdings

    2024-12-24 08:52:32
  • 火星财经消息,据火币HTX官方公告,火币杠杆已于12月17日18:00(GMT+8)新增ZEREBRO资产和交易。具体新增逐仓杠杆交易对为:ZEREBRO/USDT (10X)。ZEREBRO/

    2024-12-17 18:48:25
  • 随着数字经济的蓬勃发展,人们对于加密货币的关注与日俱增。其中,GTC币作为一种备受瞩目的数字货币,备受业内外关注。GTC币究竟是什么?它有何独特之处?本文将带您深入探索GTC币的神秘世界,解密其背后的魅力。

    GTC币全称为“Game.comToken”,是由Game.com平台发行的数字货币,基于区块链技术,旨在构建一个去中心化的虚拟游戏世界。相比于传统的数字货币,GTC币具有

    2025-01-09 20:08:41
OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册