英伟达Blackwell芯片即将出货,为何气冷散热仍为主流?

来源:爱集微 #英伟达# #芯片散热#
3.8w

随着云计算、大数据、算力以及AI技术的快速发展,数据中心传统的风冷散热技术已经难以解决高热密度散热问题,采用效率更高的液冷散热技术是人工智能发展的必然结果。

目前,AI服务器行业走向液冷已经成为业界共识。正如英伟达CEO黄仁勋所言,浸没式液冷技术将是未来的主流发展方向,将给服务器和数据中心散热技术带来全面的革新。显然,英伟达的选择在业内具有风向标意义,有望引领全球数据中心液冷市场规模有望加速增长。

但就现阶段而言,在英伟达AI芯片掀开散热的天花板后,芯片散热需求只会不断往上抬升,但技术导入也须考量多重现实需求和客观条件,包括可替代技术方案、现有设施状况、整体重构成本和自身需求等。鉴于此,当前数据中心行业仍以气冷散热为主流,而Blackwell架构也将同时推出风冷DGX和液冷MGX两种服务器方案兼顾布局。

Blackwell采用气冷一反常态?

英伟达Blackwell推出后,市场一度传出服务器将使用液冷来散热。

就技术路径来看,液冷技术主要包括冷板式液冷和浸没式液冷两种。其中,冷板式液冷技术是将金属水冷板直接贴合CPU和GPU上面,通过液体流动将热量带出来;浸没式则是将服务器主板直接浸泡在冷媒中,多数为电子氟化液。目前,出于传统数据中心对原有基础设施的改造成本和难度的考虑,以及当前冷板式方案成熟度较高,商用基础更好。

开源证券研报认为,英特尔多款CPU TDP(热设计功耗)已达350W,英伟达的H100 SXM TDP达到700W,B100TDP或达到1000W左右,逼近风冷单点散热极限。同时,单机柜功率不断增长,逼近风冷散热极限,继续采用风冷将导致行间空调需求数量陡增。高密度散热场景下液冷方案成本和性能优势显著。

但Blackwell系列芯片即将出货,却传出气冷散热仍为主流。据服务器供应链透露,Blackwell系列芯片B100、B200即将出货,其中搭载B100、B200的HGX系统预计今年第3季中下旬量产出货,初期以小批量为主,至于GB200系列量产时间则落在2025年。

但有趣的是,服务器供应链人士指出,目前搭载B100及B200芯片的AI伺服器散热设计,仍会以3D VC的气冷散热为主。然而,B100、B200的TDP已经分别达到800及1000W,服务器厂商为何仍然采用气冷散热?

业内人士称,若单纯以散热模组来看,芯片TDP到500瓦以上确实已濒临气冷散热的极限,但当芯片置入主机板中,可以通过主机板的系统设计,强化气冷风流和解热能力,会比单纯用模组散热强。液冷的解热瓦数势必高于气冷散热,在英伟达掀开散热的天花板后,芯片散热需求只会往上拉升,但技术导入也须考量现实,数据中心仍以气冷散热为主流。

根据数据显示,目前数据中心传统风冷散热技术仍然占有90%以上的份额,液冷占比不到10%,随着AI服务器的大规模建设,业内专家预计2025年液冷占比有望达到30%,市场规模有望超过800亿元,五年复合增长率达55%。

另据了解,Blackwell架构将同时推出风冷DGX和液冷MGX两款服务器。

尽管英伟达新一代产品并不强制要求使用液冷,但若想充分利用英伟达的旗舰芯片,液态冷却几乎是必选。对于B100、B200和GB200,其主要区别在于功率和性能。

据英伟达介绍,这些芯片的工作功率范围可在700W至1200W之间,视具体型号和冷却方式而定。其中,采用空气冷却系统的HGX B100设备可在每块GPU上实现14petaflops的速度,同时功耗与H100相当。在采用空气冷却的HGX或DGX架构中,每块B200 GPU能提供18petaflops的计算能力,同时功耗达到1000瓦。

然而,在AI数据中心领域,想要发挥Blackwell的最大潜力,转向液态冷却几乎成为必须。在液冷配置下,芯片在满负荷运作时的热输出可以达到1200W,同时实现20petaflops的性能。这对于现有设施而言,将面临较大程度的挑战。

业界指出,除非新建的数据中心,会考虑后续芯片升级后的散热需求改用采水冷设计,包括楼板高度、承重到水管都须重新调整,否则现有数据中心都会尽量采用气冷散热解决。此外,由于AI的训练需耗费大量运算,才需采用最高效能的AI芯片,多数数据中心其实不需如此,自然也尚不需导入液冷散热方案。

即便如此,AI服务器行业走向液冷的大趋势已经成为业界共识。曙光数创副总裁姚勇指出,随着AI、云计算等技术升级,数据中心功率密度会继续提升,液冷是解决高密问题的有效途径,预计三年之后液冷和风冷将平分天下。

液冷推广应用面临多重挑战

无论是从英伟达的GTC和Computex 2024大会,还是从整个产业技术的发展进程与动向,种种迹象表明散热技术之于高算力芯片和数据中心的重要性。

广州力及热管理科技(NeoGene Tech)创始人陈振贤表示,“当单颗高算力芯片功率达到1000瓦时,现有散热技术都将会被革命。未来,芯片大战将要转为散热大战。”

目前,业界主要几家散热大厂都在开发采用风冷方案的3D VC散热模组,加上风扇散热能力可以达到六七百瓦,但弊端是体积太过庞大。因此,对数据中心、高端运算而言,风冷3D VC散热模组将只会是一个过渡性产品。在AI、数据中心的技术迭代和强需求刺激下,散热模组技术的发展元年已经开启,而且正从风冷技术转向散热能力更强的液冷技术方案。

随着AI的大规模发展,带动算力需求提升,芯片和服务器功率逐步升级,将超出风冷散热能力范畴。姚勇表示,“芯片的工作温度是八九十度,一定空间里高密度部署高功率芯片,最后决定算力水平的有可能不是半导体技术,而是散热技术。”

另据市调机构OCP GlobalSummit调查显示,目前气冷能因应的功耗极限是750W。在热功耗(TDP)方面,预期GPU在2026年的热功耗(TDP)将会达到1500W、2028年将再上升至2000W;CPU在2026年热功耗(TDP)上看800W、2028年将达1100W。

随着GPU、CPU的耗能越来越大,在气冷已无法满足之下,液冷散热成为目前最佳解决方案之一,预期2024年的数据中心液冷散热市场销售额约42.69亿美元,2025年将达62.15亿美元,年增长接近5成。多位行业人士认为,2024年可谓液冷元年,2025年有望成为液冷散热正式起飞的一年。

然而,液冷技术是未来方向,但仍有一些关键问题制约着液冷技术的全面推广和应用。

中国三大运营商日前联合发布的《电信运营商液冷技术白皮书》指出了液冷产业目前面临的挑战,包括一是业内尚无服务器与机柜统一接口规范标准,机柜与服务器深度耦合,各家服务器设备、冷却液、制冷管路、供配电等产品形态各异,不同厂家产品不能相互兼容;二是液冷系统架构尚在演进,制冷与供电存在分布式、集中式不同架构;三是与传统风冷产品比较,液冷存在初期投资高、全生命周期成本高等问题,影响产品的规模应用与推广。

另据中数智慧信息技术研究院(CDCC)的调查,液冷技术研发人员、液冷产品厂商、液冷用户等受访者认为,目前最需要改进的问题为技术安全性和可靠性、成本控制以及液冷系统的运维和管理,76%的受访者认为,液冷技术的持续创新和成本控制是行业发展的关键。

例如采用氟化液的㓎没式液冷技术方案,就是把整个服务器泡在氟化液里面。中科创星董事总经理卢小保称,虽然这种方案会进一步加强散热能力,但氟化液号称“茅台”,从而使得氟化液的成本比服务器都高,在数据中心的建设中从“配角”变成了“主角”。

此外,液冷散热虽然是有效的散热方式,但也存在漏液等风险。业内人士指出,在服务器液冷系统所需零组件中,快换接头最为紧缺,因为液冷服务器最忌讳漏水,而最容易漏水处恰恰是在快接头。目前,由于快换接头供货紧张,虽然英伟达Blackwell出货在即,但液冷AI服务器或陷入出货瓶颈。

无论如何,在整个产业界“共振”下,液冷散热将逐渐从“可选”发展到“必选”阶段。财通证券表示,传统风冷无法满足AI计算的散热需求,预估到2027年全球液冷相关产品市场规模有望达数千亿元。在AI大模型的需求驱动以及AI硬件领导者英伟达的引领下,全球数据中心液冷市场规模有望加速增长。

责编: 张轶群
来源:爱集微 #英伟达# #芯片散热#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...