笑傲江湖、一骑绝尘、与苹果市值只有一步之遥的英伟达俨然已成为“全民公敌”,在其固若金汤的护城河内,各方阵营都伺机而动群起攻之。
除英特尔、AMD等半导体厂商以及众多云厂商、初创公司在GPU这一大本营不断冲锋之外,围绕英伟达的CUDA生态、InfiniBand网络不同势力也在着力反攻之外,这不,又着眼于英伟达的互联技术NVLink发起新一轮围攻,似乎要在台北电脑展前,给黄教主施加压力。
包括AMD、博通、思科、Google、惠普、英特尔、Meta和微软在内的八家公司宣告,将为AI数据中心的网络制定新的互联技术UALink(Ultra Accelerator Link),建立一个新的开放互连标准,以打破英伟达的垄断。
进阶到第五代的NVLink会被撕开一道口子吗?
NVLink积十年之功
无论是CUDA,还是NVlink,无疑都体现了英伟达的高瞻远瞩和强大的执行力。
随着人工智能、大数据等技术的快速发展,传统的计算架构已经难以满足日益增长的计算需求。特别是在多GPU系统内部,GPU间通信的带宽成为制约系统性能的关键因素。传统的PCIe总线虽在一定程度上满足了数据传输的需求,但在高带宽、低延迟的要求下,其性能逐渐显得捉襟见肘。
为解决这一问题,英伟达排兵布阵十年之久:于2014年推出了NVLink技术这一专门用于连接英伟达 GPU的高速互联技术,NVLink旨在为GPU互连提供简化、高速、点对点的网络,以提升GPU算力的可扩展性,形成强大的集群算力。
从诞生至今,已经历了五个代际的演进,每一代NVLink都在连接方式、带宽和性能不断提升,以应对日益增长的计算需求。2024年,随着英伟达全新Blackwell架构的发布,NVLink 5.0也随之而来。NVLink 5.0以每秒100 GB的速度在处理器之间传输数据,每块GPU拥有18个NVLink连接,Blackwell GPU的总带宽可达到1.8TB/s,是NVLink 4.0的两倍,也是行业标准PCIe Gen5总线带宽的14倍。
此外,英伟达自研的NVLink-C2C技术,还支持定制裸片与英伟达GPU、CPU、DPU、NIC和SOC之间的互联,其GB200超级芯片中CPU与GPU的连接即采用了该技术。
NVLink技术的核心包括NVSwitch芯片,类似于交换机ASIC,可通过高速的NVLink接口连接多个GPU,提高服务器内的通信和带宽。第三代NVSwitch具有64个NVLink4端口,可支持以900 GB/s的速率互连每对GPU。而NVLink交换机内置NVSwitch3芯片,负责在多个GPU之间建立通信链路,实现高速的数据传输和共享。这种架构使得NVLink能够灵活地适应不同的系统配置和需求。通过采用NVLink和NVSwitch技术连接GPU,英伟达也推出了DGX系列服务器或具有类似架构的OEM HGX服务器,提供出色的GPU互联性、可扩展性和高性能计算能力。NVLink服务器在科学计算、人工智能、大数据处理和数据中心等关键领域已变得不可或缺,持续推动这些领域的创新和发展。
可以说,过去十年间,NVLink已成为英伟达GPU的核心技术及其生态系统的重要组成部分。随着先进计算领域的不断发展,NVLink的重要性和影响力也在不断扩大。
持续的围攻
如果说持续迭代的GPU是英伟达纵横驰骋的利器,那么CUDA、NVLink和InfiniBand则是其不可或缺的三大护法。CUDA的重要性自不待言,而NVLink和InfiniBand也协同创造了一个强大的计算生态系统,NVLink实现GPU高速连接,而InfiniBand则处理跨节点数据传输,无缝支持高要求并行计算和机器学习任务。
这三者的结合让英伟达在生成式AI、高性能计算等市场无出其右,不仅确立了其作为行业标准制定者的角色,还进一步扩大了其在技术前沿的垄断地位。
英伟达2025财年第一财报显示,第一季度总营收260亿美元,创历史新高。其中,数据中心业务贡献了英伟达的绝大部分营收,收入达226亿美元,同比增长427%,环比增长23%。英伟达超越苹果成为全球第二大市值的公司已指日可待。
对于英伟达风头无两的“创世纪”,其他巨头们早就大写的“不服”,除了在GPU阵地持续深耕之外,在CUDA生态层面也在合纵连横意图开创新生态来分庭抗礼。此次集体组团成立UALink以定义新的行业标准既不是首次,看来也不会是最后一次。
之前科技巨头们就已在挖InfiniBand的墙角。
早在2023年7月,Linux基金会就联合博通、思科等多家公司成立了一个“超级以太网联盟”,着力为高性能网络构建基于以太网的完整通信栈架构,意图实现比InfiniBand网络更高效、更具可扩展性的互联网络,从而打破Inifiband的江湖地位。
目前在高速互联技术领域,除了英伟达的NVLink,AMD的Infinity Fabric技术是唯二之选。
而且,不同于英伟达NVLink“独美”,AMD已开始向新合作伙伴开放其Infinity Fabric生态系统。在去年年末AMD MI3000的发布会上,博通宣布其下一代PCIe交换机将支持XGMI/Infinity Fabric。
不仅如此,AMD还希望Arista、博通、思科等合作伙伴能推出适用于Infinity Fabric等产品的交换机,能够方便MI3000在单一系统外实现芯片间通信,这类似于英伟达的NVSwitch交换机。
此番巨头们合力要在英伟达的NVLink重围中开创新的自由王国,真正的问题是UALink能走多远?
UALink能走多远?
值得注意的是,Ultra Accelerator Link联盟的核心于去年12月就已建立,目前UALink发起人工作组已经成立了UALink联盟,预计将在2024年第三季度正式成立。
UALink联盟意图以开放来瓦解英伟达封闭互联技术的力量,让多个不同供应商的GPU连接到一个机箱内,或者是连接到一个Pod(舱)内成为UALink联盟的宏愿。
设想一下,使用UALink可以将一个带有AMD GPU的Pod,一个带有Intel GPU的Pod和另一个带有若干AI芯片的其他品牌供应商的舱连接在一起。如同Meta和微软发布的开放加速器模块 (OAM) 规范允许系统板上加速器插槽的通用性一样,UALink将在互连层面上实现服务器设计的通用性。
据悉,联盟正在着手制定UALink V1.0 规范,1.0版规范预计将于2024年第三季度推出,并向参加超级加速器链(UALink)联盟的公司开放。1.0版规范将允许在AI容器组中连接不超过1024个加速器,支持在容器组中加载到GPU的内存之间进行直接加载和存储。
一名行业人士指出,高速互联技术市场是刚需,犹如苹果iOS系统和安卓系统的对决,在英伟达的封闭生态之外,市场需要有第二选项,这也意味着博通、英特尔和AMD在联盟中至关重要。
对于AMD和英特尔等公司来说,UALink为其提供了一条复制NVLink和NVSwitch、并与其他公司共享开发成果的途径。此外, UALink也让博通这样的公司制造UALink交换机来助力其他公司扩大规模。
“行业需要一种能够快速推进的开放标准,这种开放标准允许多家公司为整个生态系统增加价值。”在外媒TechCrunch的采访中,AMD数据中心解决方案总经理Forrest Norrod也表示,“这种标准需要允许创新不受任何一家公司的束缚,可快速推进。”
有消息称AMD为UALink项目贡献了范围更广的Infinity Fabric共享内存协议以及功能特定于GPU的xGMI,而所有其他参与者都同意使用Infinity Fabric作为加速器互连的标准协议。但联盟内部人士指出,PCI-Express不是UALink唯一的互联,xGMI也不是唯一的协议。
上述行业人士分析,联盟有可能采用AMD的方案,这可快速推向市场。但具体挑战在于互相之间要协调,各家都有想法,很可能周期比较长,这里需要有绝对实力的玩家来推动产业的发展。
北京半导体行业协会副秘书长、北京国际工程咨询有限公司高级经济师朱晶对此不太乐观,发文表示,UALink的目的是做一个NVlink的平替,但八王之中没有AWS没有Arm没有OAI……而且看起来没有太大的戏,NVlink之所以强大是因为它自由,不受任何通用协议的限制,英伟达独宠。而UALink一下子出来8个爸爸,各个都有自己的盘算,怎么比?
光互联成下一个战场
诚然,上述互联技术经过长期演进,在互联层面实现了新的高度。但一个不争的事实是,随着计算数据的爆炸式增长、神经网络的复杂性不断增加,以及新的人工智能和图形工作负载和工作流程以及传统科学模拟的出现,对更高带宽的需求仍在继续增长。
这些互联技术将不可避免地存在性能瓶颈。例如英伟达的 NVLink 虽然速度很快,但是功耗偏高;而 AMD的Infinity Fabric则适合于芯片内部的连接,对于芯片之间的互联效率还待提升。
业内也认为,随着光互联的不断发展,凭借高带宽、低功耗等优势将成为未来AI互联技术的新范式。
有分析称,随着AI不断加速网络互联迭代,光互联的市场需求将大幅提升。2023年作为AI元年,AI互联速度由过去的4年两倍变为2年两倍,由400G向着1.6T、3.2T等更高速发展。而且,大模型的快速发展拉动集群、光互联增长,5层网络架构或将出现。GPT-3需要1000个集群和2000个光互联,GPT-4需要2.5万个集群和7.5万个光互联。随着AI模型越来越大,未来10万个集群将很快被采用,从而需要5层网络架构和50万个光互联。XPU与光互联配比关系未来有望提升至1:10。
从训练侧和推理侧来看,互联需求也只多不少。训练侧每单个集群中XPU卡数量多,但集群数量少;推理侧每单个集群中XPU卡数量少,但集群数量多,但这两者都将驱动大量的光互联。
半导体业界推出的解决方案是将硅光子光学元件及交换器ASIC,通过CPO封装技术整合为单一模组,此方案已开始获得微软、Meta等大厂认证并采用在新一代网络架构。咨询机构LightCounting认为,到2026年,HPC和AI预计成为CPO光器件最大的市场。CPO出货量预计将从800G和1.6T端口开始,于2024至2025年开始商用,2026至2027年开始规模上量。据其预测,全球CPO端口的销售量将从2023年的5万增长到2027年的450万,4年时间将提升90倍。
英伟达数据中心产品首席平台架构师Rob Ober也曾在媒体咨询中表示:“在过去的十年中,英伟达加速计算在人工智能方面实现了数百万倍的加速。下一个百万将需要光学I/O等新的先进技术来支持未来AI和ML工作负载和系统架构的带宽、功率和规模要求。”
作为CPO不可或缺主力,台积电已频频传出布局硅光及CPO的动向。2023年末有消息称,台积电正与博通、英伟达等大客户联手开发硅光及CPO光学元件等新品,最快2024年下半年开始迎来大单,2025年有望迈入放量产出阶段。
目前,英伟达提出的光互连方案使用OIO的OE方案实现,以降低功耗和提高性能。此外,英伟达也在呼吁光互联的生态链合作,期望对Switch和GPU接口进行重大的变革。
随着英特尔、AMD与英伟达等均已在硅光互联领域发力,看起来,新的光互联叙事将渐次展开,只是不知此次的故事脉络与以往会有不同吗?