当DeepSeek-V3和R1模型在硅谷掀起惊涛骇浪时,人们认为如果低成本都能打造高性能模型 ,那么依靠昂贵GPU堆砌算力的效果将大打折扣 。
英伟达不仅屹立不倒,反而展现出更强的生命力。
刚刚发布的财报数据显示,英伟达第四财季营收为393.31亿美元 ,较上年同期增长78%。2025财年全年营收1305亿美元,较2024财年增长114% 。
H20芯片的订单激增,Blackwell平台的前景一片光明 ,更多高效模型的出现也点燃了对AI基础设施更加旺盛的需求。
而英伟达的GPU依然是这一领域的首选。
黄仁勋豪言数十亿销量,Test-Time Scaling引爆AI新战场
业界普遍认为,Scaling Law并没有完全失效 ,只是Scaling的方向正在发生变化,随之而来的则是,AI行业逐渐走向了另一条分叉口——Test-Time Scaling 。
Test-Time Scaling主要用于推理阶段,通过分配额外的计算资源来优化模型的推理性能。
英伟达的Hopper架构和Blackwell架构都能显著提升模型推理的效率。其中Blackwell系列更是被寄予厚望 ,能够为Test-Time Scaling提供强大的硬件支持 。
黄仁勋在今天财报的新闻稿表示:
我们已成功大规模量产Blackwell AI超级计算机,并在首个季度实现了数十亿美元的销售额。随着自主智能体AI(Agentic AI)和物理AI的发展,AI正以光速推进 ,为下一波AI革命奠定基础,重塑各大核心行业。
Blackwell芯片架构亮相于去年的GTC 2024开发者大会,以美国数学家David Blackwell命名 ,旨在支持大规模AI模型的训练和推理,具备高性能和高效率的特点。
但这款今天被黄仁勋誉为“在各个方面都‘表现非凡’”的芯片,却在投产过程中一波多折 。
据悉 ,Blackwell芯片在设计上存在重大缺陷,特别是在连接两个GPU的关键电路上,导致良品率较低。在高密度服务器机架中 ,Blackwell芯片也会因散热不足导致过热,影响性能并可能损坏硬件。
好在,后续在台积电的帮助下,英伟达修复了设计缺陷 。谈及在早期生产Blackwell时遇到的“小问题 ”时 ,黄仁勋表示,“这可能让我们损失了几个月的时间。”
不过,他补充道 ,公司“以光速”恢复,并从中吸取了经验,为Blackwell Ultra(B300系列)的生产做好了准备。他表示 ,“下一班火车 ”将按照“每年的节奏”推进 。
Blackwell Ultra是英伟达下一代重要的AI芯片,这款芯片在技术规格上实现了显著提升,特别是在推理性能、显存容量和带宽方面 ,并引入先进的冷却技术。
其不仅配备288GB HBM3E显存,显存容量相比B200的192GB提升,显存带宽达到1792 GB/s ,功耗也达到了1400W,按照英伟达的路线图,预计将在今年下半年推出。
谈到Blackwell的过渡,黄仁勋表示:“这是一次非常具有挑战性的转变 。”但他预计 ,未来向Blackwell Ultra的过渡会更加顺利。
他解释说,Blackwell Ultra的过渡更平稳,因为其芯片架构与Blackwell相同。而相比之下 ,从Hopper过渡到Blackwell的挑战要大得多 。
黄仁勋指出,AI芯片最好被视为软件——它将无处不在,遍布每个国家和地区。“每个学生都会使用AI作为导师 , ”他补充道:“没有一家金融科技公司不会使用AI。”
基于此,市场对Blackwell的需求更是惊人的,推理AI引入了另一条Scaling Law——增加训练计算量可以让模型更智能 ,而增加长期思考的计算量则能让答案更精准。
英伟达CFO Colette Kress也认为,推理需求正在“加速” 。
在Test-Time Scaling以及OpenAI o3 、DeepSeek R1和Grok 3等新推理模型的推动下,后训练和模型定制的规模巨大 ,总体上需要数量级更高的计算加速。
除此之外,受美国出口管制的影响,英伟达为中国市场推出了特供版H20芯片。
这款芯片性能虽不及H100或H200,但在合规性与性价比上表现出色 。尤其是其在DeepSeek模型上的良好表现吸引了众多企业的关注 ,导致订单在近期出现了“显著增长 ”。
不过,Kress在财报电话会议上表示,公司的中国数据中心收入“远低于正常水平”。她指出 ,该收入水平是在监管法规变化之前的情况,并预计中国的出货量将“基本维持在当前比例” 。
她还表示,由于Blackwell产能的快速提升 ,美国的数据中心收入最为强劲。
在过去几个月,全球AI基础设施投资热潮已然形成燎原之势,美国科技巨头在AI领域的投资预算近日也陆续公布 ,得益于目前英伟达在GPU市场的优势地位,预计不少预算将被收入囊中。
Meta计划投资超过2000亿美元建设新一代AI数据中心园区 。
OpenAI与软银等联合启动“星际之门”计划,未来四年内投资5000亿美元建设AI数据中心。
微软计划在2025财年投入约800亿美元用于AI数据中心建设。
Google计划在2025年投入约750亿美元用于AI数据中心和相关基础设施 。
亚马逊计划在2025年投入超过1000亿美元 ,主要用于云计算和AI技术的研发。
英伟达看似独占鳌头,却也面临挑战。
一方面,正如黄仁勋所说,尽管英伟达制造了很多芯片 ,但这并不意味着它们会被公司购买,以及部署,他表示 ,作出商业决策时需要考虑其他因素。
他还提到,英伟达能够继续取得成功并保持强劲的需求,原因之一是该公司“部署能力快如闪电 ”以及其持续创造更先进的技术 。
另一方面 ,据外媒The Information援引Arm CEO Rene Haas的说法,尽管英伟达在已部署基础设施上占据绝对优势,但芯片初创企业同样正在推动诸多创新 ,比如光纤基板、共同封装光学器件、革命性内存架构以及内存计算等。
半导体行业正迎来一个非常有趣的时代,毕竟多年来这一领域的创新相对有限。
DeepSeek让英伟达市值暴跌?或许只是障眼法
春节期间DeepSeek在硅谷的爆火出圈,也给英伟达的发展增添了新的变量 。
通过算法创新 、数据压缩和推理优先的设计 ,DeepSeek以极低的训练成本,打造出高性能模型DeepSeek-V3/R1,引发了一连串的连锁反应。
常规的看法是,受到DeepSeek的冲击 ,英伟达的市值一度在一天内暴跌了5890亿美元。
但DeepSeek不仅没有削弱“算力至上”的逻辑,反而在某种程度上进一步强化了这一信仰,尤其是DeepSeek模型的训练过程仍旧依赖于英伟达H800芯片集群 ,而这也是常被市场忽视的关键事实 。
黄仁勋上周接受采访时也表示,尽管DeepSeek确实在预训练模型方面取得进展,但后训练阶段仍需要庞大算力;后训练才是培养AI模型智力、即学习如何解决问题和推理的最关键环节。
包括DeepSeek这几天连续开源多个英伟达GPU优化项目 ,在探索模型性能极限之余,也进一步加深了其与英伟达生态的绑定。
比方说,昨天开源的DeepGEMM是一个高效、简洁的FP8矩阵乘法(GEMM)库 。
其采用的Just-In-Time(JIT)设计 、两级累加以及高性能优化技术 ,如TMA和指令重叠,使其在DeepSeek-V3中表现出色,但同时DeepGEMM也是专为英伟达Hopper架构和稀疏专家模型(MoE)优化。
当DeepSeek正在用开源切入英伟达的市场 ,双向奔赴的英伟达也正在用生态整合DeepSeek的成果。
DeepEP在上午开源后,英伟达下午便将其集成到Megatron-LLM中 。有消息称(@共识粉碎机),英伟达内部已将对DeepSeek的支持重要性提升至比Llama更高的优先级,内部资源和流程也是一路绿灯。
春节期间 ,关于DeepSeek-R1的NVIDIA NIM微服务的预览版上线。
这意味着开发者可以在英伟达的平台上测试和使用DeepSeek-R1模型,结合NVIDIA AI Foundry和NVIDIA NeMo软件,企业还可以定制DeepSeek-R1 NIM微服务 ,以构建特定领域的AI应用。
英伟达近期更是开源了专为Blackwell架构调优的DeepSeek-R1版本 。该版本在推理处理速率提升至原来的25倍,同时每个token的计算成本仅为此前的1/20。
从机遇角度看,DeepSeek的开源正在为英伟达带来前所未有的市场红利。
黄仁勋在电话会议中也提到 ,“DeepSeek R1点燃了全球的热情” 。短期内,开源引发的算力热潮直接推高了GPU销量。
长期来看,开源社区的活跃将进一步巩固英伟达的生态优势 ,开发者对CUDA的依赖只会加深,而企业客户在追求更高性能时仍会选择Blackwell等新品。
最底层的逻辑是,低成本模式适用于消费级应用 ,但在企业级AI(如AGI研发)中,英伟达的高端芯片仍是不可替代的 。未来,AI行业可能走向“双轨制 ”,低端市场追求性价比 ,高端市场继续依赖算力驱动。
开源是AI的催化剂,但催化剂需要强大的硬件承载,英伟达正是那个承载者。
用一句更形象的话概括 ,当全世界都在担心DeepSeek会成为英伟达的掘墓人时,黄仁勋却在背后悄悄给它递了把铲子:
不是用来挖坟,而是一起挖金矿 。