遥遥领先的B200 英伟达让你看不到车尾灯

作者：李映 03-19 21:01

相关舆情 AI解读生成海报

来源：爱集微 #英伟达#

3.8w

黄教主当仁不让，一人撑起2024GTC大会2个多小时的秀场，并接连祭出数个王炸，让业界叹为观止。

光环加身，黄教主真人秀的金句无疑具有行业指向性意义：我们正处于行业中两个转变的开端，一是通用计算到加速计算的转变，二是向生成式AI的转变。

而让我们感叹的不止是第七代基于Blackwell架构的B200 GPU远超前一代的性能，英伟达一系列左右开弓、前瞻布局的举措也展现了其在通用AGI时代的完整战略和布局，业界惊呼：英伟达正在超越“英伟达”。

迎接两大转变全面撒网

英伟达重磅发布的Blackwell架构GPU无疑是一枚深水炸弹：B200包含2080亿个晶体管，可提供高达20千兆次的FP4算力，是前一代H100的5倍，支撑10万亿参数大模型训练。由两片B200组成的GB200，在基于1750亿参数的GPT-3基准测试中，其性能是H100的7倍、训练速度则提高了4倍。

8年时间，从Pascal架构到Blackwell架构，英伟达将AI计算性能提升了1000倍。之前黄教主还表示，未来10年GPU还可将深度学习能力提升100万倍。

而这还只是开胃小菜，黄仁勋还直指足以优化万亿参数级GPU计算的最强AI基础设施，推出全新网络交换机X800系列，吞吐量高达800Gb/s；以及新一代DGX SuperPOD AI超级计算机，性能直接秒杀一众同侪。超级计算机的“生成”之路在于：两个GB200超级芯片形成一个计算节点，18个计算节点构成计算单元GB200 NVL72，它们可通过持续扩展，最终构成包含32000 GPU的分布式超算集群。

北京半导体行业协会副秘书长朱晶在朋友圈发文表示，Blackwell架构GPU展示了英伟达从芯片、互联、服务器、网络、算力集群等全方位的遥遥领先。

不止如此，尽管CUDA已成为英伟达的强护城河，但随着ChatGPT的出现大幅度加速了生成式AI的开发和应用进程，英伟达软件再下一程，推出了NIM。作为一组经过优化的云原生微服务，旨在缩短上市时间并简化在云端、数据中心和GPU加速工作站上部署生成式AI模型。

无疑，这或算是CUDA霸权的延伸。进一步来看，英伟达企业级软件家族的极大丰富，说明其在“软件公司”的路上越走越远，对于生态的深度和广度远非其他企业可比。

面向人形机器人的大爆发，英伟达也全线发力，发布人形机器人基础模型Project GR00T、新款人形机器人计算机Jetson Thor，对Isaac机器人平台进行重大升级，推动具身智能突破。与苹果强强联手，将Omniverse平台引入苹果Vision Pro，并宣布为工业数字孪生软件工具提供Omniverse Cloud API。

一系列凌厉出招，无疑都在表明英伟达正在全力打造一个AGI时代的“航空母舰”，英伟达的进化版已经实现全面的进化。

技术持续优化前沿布局

实现如此巨大的“飞跃”，不得不说一些新兴和前沿技术功不可没。

有分析称，Blackwell自身最大的变化是dual die chiplet和更大的晶体管数量，采用同样的TN4工艺。而且，英伟达在系统级以及解决通信瓶颈层面提升迅速，包括互联的NVSwitch和NVlink不断提升性能，如升级第五代NVLink，具有1.8 TB/s的全对全双向带宽，互连速度是Hopper的2倍，支持576个GPU NVLink域，可解决万亿参数混合模型通信瓶颈。

通过Grace CPU＋Blackwell GPU的比例优化（从1：1到1：2实际按照die是1：4），发挥更大的合力。这也凸显英伟达在GPU领域占据主导地位的同时，CPU也在成为英伟达的新利润池。

朱晶进一步表示，此次的Blackwell架构的chiplet设计与一般的Chiplet不太一样，两颗GPU之间的高带宽I/O链路是关键。英伟达称为NV高带宽接口 (NV-HBI )，可以提供 10TB/秒的带宽，这大于普通的Chiplet能做到的互联带宽，单纯看这个架构应该是高度依赖先进封装。

更值得关注的是，英伟达还宣布台积电、新思科技将突破性的光刻计算平台cuLitho投入生产。cuLitho可将计算光刻加速40-60倍，英伟达还将推出新的生成式AI算法增强cuLitho，将为2nm及更先进制程开发提供“神助攻”。

对此黄仁勋表示，计算光刻将成为芯片制造的基石。

台积电CEO魏哲家在一份声明中表示：“我们与英伟达合作，将GPU加速计算集成到台积电工作流程中，从而实现了性能的巨大飞跃、吞吐量的显著提高、周期时间的缩短和功耗的降低。我们正在将cuLitho转移到台积电生产，利用这种计算光刻技术来驱动半导体微缩的关键组件。”

整体而主，先进工艺+先进封装、算法改进、架构优化已成为英伟达持续进阶的三大利器，而在上述层面的强强联合也为英伟达未来发展增添无数后劲。

架构变革应对押注推理

一系列“杀手级”GPU和超级计算机也让业界认识到，英伟达将进一步拉大与其他芯片企业在大模型训练上的差距，这种差距甚至可能在几十倍水平。

“在这次GTC之后，我国在大模型上的差距不止一年了，芯片层面更是差距遥远，短时间都摸不到Blackwell GPU……”朱晶如此叹息道。

要在训练层面翻盘，必须要独辟蹊径。业内人士对集微网表示，整体而言，国内与英伟达在GPGPU的差距在急剧拉大，如果沿袭之前的思路恐难以企及，需要通过新的架构和逻辑来追赶和超越，架构包括新的计算架构、芯片架构等，减少数据搬运是提升效率的关键。而且，不能仅依靠一两家大企业，必须百花齐放。

在生态层面，要认识到生态建设是个长期的过程，需要瞄准独立的生态才能有长足的发展，但是过渡期兼容性问题需要仔细考虑。上述人士进一步指出，好比新能源汽车，国内在新能源汽车市场发展强劲，通过自我闭环也打造出全新的新能源汽车生态。

避其锋锐，在推理层面或可扳回一局。

目前推理芯片市场规模相对较大，据预计国内到2025年训练芯片市场规模为494亿元，而推理芯片市场规模将达到891亿元，国内AI芯片企业走推理之路或能弯道超车。在大模型推理芯片市场，GPU优势并非无法撼动，据悉已有不少企业抢夺了英伟达的市场份额。

国外一位资深专家在解读时提到，英伟达B系列GPU代表了其未来瞄准的“万亿参数AI”的巨大飞跃。我经常读到的一本书上说软件能带来约 85%的利润率，而硬件利润率则通常很低，几十年来这一直被奉为圭臬。然而，现在的情况却并非如此，英伟达GPU正创造85%以上的利润率。如果要说科技行业有什么真理，那就是没有永恒的真理。