内存带宽成AI发展瓶颈,HBM2E和GDDR6是答案吗?

来源:爱集微 #Rambus#
3.1w

更快的计算和大数据支撑了人工智能爆炸式增长,据IDC Global DataSphere数据显示,全球数据网规模将在2025年达到175ZB。而随着摩尔定律逼近物理极限,能源效率正变得愈发重要。

Rambus 大中华区总经理苏雷指出,随着AI模型和训练规模的不断扩大,内存系统已经逐渐成为AI的关键瓶颈,对于存储容量、带宽以及功率效率都提出了更高要求。而对内存带宽的巨大需求让高性能内存标准迅速发展,例如GDDR6到GDDR6X,HBM2到HBM2E等。

苏雷强调,内存带宽是AI应用的关键资源,对用于AI处理的新型芯片的推断在很大程度上受内存带宽的限制。而在AI训练方面,从2012年至今,人工智能训练能力增长了30万倍(每3.43个月翻一番),这比摩尔定律快25000倍。特定领域的芯片带来了训练方面的改进,在多个领域进行拆分,通过并行计算来实现。但未来如何继续进行重大改进成为了AI的关键问题。

苏雷指出,业界认为要继续使用并行的策略,同时保持架构上的创新,进而带来新的改进。虽然数据并行能够缩短训练时间,但性能仍然取决于计算引擎、缓存速度,以及内存带宽。而在本地训练完成后第二阶段的Reduction阶段,由于每个引擎与所有其他引擎交互更新信息,从而改进模型,性能还将取决于链路带宽。

简言之,只有平衡好两个阶段才能确保良好的性能可伸缩性,而内存和链路带宽对于保证良好的性能至关重要,但提高内存和链路带宽仍然存在着诸多挑战。

苏雷表示,计算比内存和网络的进步更快,而且内存、网络延迟和带宽大幅落后于处理器性能,这让内存和网络逐渐成为了系统性能瓶颈。而为了打破这种限制,努力提高内存和网络的性能,新的系统结构和特定领域的硅逐渐成为了人们思考的方向,或者将更多的数据直接放在芯片上以获得更高的带宽、更好的功率和更低的延迟,但是数据总是越来越大,需要更多的内存,所以依然需要在片外存储器和链路性能上取得突破。

内存选择是系统架构驱动的关键,目前用于AI应用的内存方案主要有三种,包括片上存储、HBM和GDDR。片上存储拥有最高的带宽和功率效率,但容量有限;HBM依赖于堆叠技术,具有良好的功率效率,以及高带宽和密度,但成本和制造难度较高;而GDDR在带宽、能耗、成本、可靠性和制造难度上都体现了很好的折中。

对比 256GB/s 下 HBM2 和 GDDR6可以发现,HBM2E 的接口宽而慢,GDDR6 的接口窄而快。GDDR6 PHY的面积更大,SoC面积要多出50%~75%,而HBM2 占有面积优势。另外,HBM2在能耗上也比GDDR6有优势,GDDR6的能耗是HBM2的3.5~4倍。但是, GDDR6 具有成本和方案工程上的实现优势。

Rambus高速接口资深应用工程师曹汪洋告诉集微网,Rambus具有多年的高速设计经验,许多堆性能又高需求的计算应用选择了Rambus的产品,而Rambus的HBM2E、GDDR6解决方案都达到了业界的顶尖水平。

据介绍,Rambus的HBM Gen2 PHY 专为AI/ML、HPC的性能和低延迟而设计,应用于数据中心和图形应用程序。

Rambus HBM Gen2 PHY 完全符合 JEDEC HBM2E 标准,支持每个数据引脚高达 3.6 Gbps 的数据速率,总带宽因此达到 461 GB/s。该接口具有 8 个独立信道,每个信 道包含 128 位,总数据宽度为 1024 位,支持 2、4、8 或 12个DRAM 的堆栈高度。此外,PHY 专为 2.5D 系统设计,配有在 DRAM 和 PHY 之间路由信号的中介层。这种信号密度和堆叠式外形的结合需要考虑特殊的设计。为了在这种复杂的系统中便于实现并提高设计的灵活性,Rambus 对整个 2.5D 系统进行完整的信号 与电源完整性分析,以确保满足所有信号、功耗和散热要求。

而Rambus GDDR6(图像处理双倍数据速率)内存 PHY 支持高速、高带宽。GDDR6 SGRAM(同步图像处理随机存取)内存之间的通信。最初为图像处理应用设计的 GDDR6 是一款高性能内存解决方案,可用于需要大量数据计算的各种高性能应用,如人工智能 (AI)、加密挖掘、深度学习、自动驾驶汽车和高速网布局要求络。

Rambus GDDR6 PHY 将完全符合 JEDEC GDDR6 (JESD250) 标准,每个引脚的速度高达 16 Gbps,可用于 TSMC 7nm 工艺。GDDR6 接口支持 2 个信道,每个信道有 16 位,总数据宽度为 32 位。Rambus GDDR6 PHY 每个引脚的最高速度甚至可以实现18 Gbps,最高可提供 72 GB/s 的带宽。此 PHY 将用于先进foundry节点, 实现领先的客户集成。IP 核采用的 Rambus 系统感知设计方法提供了以客户为 中心的体验,缩短了上市时间,提高了流片一次性成功的质量。

另外,Rambus 提供灵活的 IP 核交付,并将直接与客户合作,提供完整的系统信号与电源完整性分析,优化了芯片布局。最后,客户获得包含一整套测试软件的硬核解决方案,进行快速启动、符合标准的测试和调试。

(校对/零叁)

责编: 刘燚
来源:爱集微 #Rambus#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...