DRAM产业陷入困境,未来技术如何演进?

来源:爱集微 #DRAM# #HBM#
1.3w

业界有越来越多人质疑摩尔定律的消亡,但可悲的是,其实它早在十多年前就已经消亡了,没有大张旗鼓或引起任何轰动。人们通常关注的是摩尔定律放在逻辑电路上,但该定律也适用于DRAM。

摩尔定律-图源:1965年集成电子的未来-戈登摩尔

DRAM的扩展已经停滞不前。在辉煌时期,存储器比特密度每18个月翻一番——甚至超过了逻辑电路的发展速度。这相当于每十年密度增加超过100倍。但在过去的十年里,DRAM扩展速度大大放缓,以至于密度仅增加了2倍。

来源:SemiAnalysis

现在,随着人工智能(AI)的爆炸式发展,行业的平衡被进一步打破。虽然随着时间的推移,逻辑芯片在密度和每个晶体管功能的成本上都有了显著改善,但DRAM速度却提高得很慢。比如,台积电3nm和2nm节点的每个晶体管成本仍在下降。而对于内存,带宽的增加是由复杂而昂贵的封装推动的,成本仍居高。

图源:英伟达,SemiAnalysis

高带宽存储器(HBM)是加速器内存的支柱,每GB的成本是标准DDR5的3倍或更多。客户选择被迫接受这一点,因为如果他们想要制造有竞争力的加速器套件,几乎没有其他选择。这种平衡是不稳定的,未来HBM世代产品变得更加复杂,层数更多。随着模型权重接近多TB规模,AI内存需求呈爆炸式增长。对于英伟达H100来说,制造成本的大约50%以上归因于HBM,而对于Blackwell,这一比例提高到60%以上。

换句话说,DRAM产业已经陷入困境。尽管计算性能的提升正在放缓,但仍然远远超过了内存的提升。如何才能加快DRAM的创新步伐?未来又可以利用哪些创新来提高带宽、容量并降低成本和功耗?

有许多可能的解决方案。由于AI的资本支出高达数千亿美元,行业有强烈的动力推动这些解决方案向前发展。

本文从DRAM的背景和历史开始,我们将介绍构成现代“内存墙”的每个问题以及可能的解决方案。我们将讨论相对简单的短期想法,如扩展HBM路线图,以及更复杂的长期选择,如存内计算(CIM),新存储器类型,如铁电存储器(FeRAM)或磁性存储器(MRAM),以及即将到来的4F² DRAM和3D DRAM。

DRAM入门工作内存

计算机中有几种类型的存储器。最快的是SRAM(静态随机存取存储器),它与逻辑处理技术兼容,位于CPU或GPU上。因为它是在逻辑芯片上,所以SRAM也是最昂贵的内存类型——每Byte(字节)比DRAM贵100倍以上,因此只能少量使用。相反的类型包括非易失性NAND固态驱动器、硬盘驱动器和磁带。它们很便宜,但是对于许多任务来说太慢了。DRAM位于SRAM和闪存之间的“刚刚好”区域——速度足够快,价格足够便宜。

内存层次结构。来源:Enfabrica

DRAM可能占非AI服务器系统成本的一半。然而在过去10年中,它是所有主要逻辑和内存中扩展最慢的。16Gb DRAM芯片8年前首次大量上市,但至今仍是最常见的;当它们首次推出时,每GB的成本约为3美元,最高达到近5美元,然后在过去的12个月回落到3美元范围。速度稍慢一些,功率得到最大的改善,这主要归功于LPDDR的兴起,这是一种使用更短、更高效的线路的封装变化,但门槛很低。DRAM扩展缺乏进展是遭遇了性能和经济瓶颈,阻碍了计算的发展。

DRAM入门基本架构

DRAM的原理很简单。它由一个存储单元阵列组成,这些单元以网格形式排列,每个单元存储1比特信息。所有现代DRAM都使用1T1C单元,表示1个晶体管和1个电容器。晶体管控制对单元的访问,电容器以小电荷的形式存储信息。

基本DRAM电路:存储单元阵列沿着每一行连接字线(wordline),沿着每一列连接位线(bitline)。激活1个字线和1个位线允许在它们相交处的单元被读取或写入。

字线(WL)连接同一行中的所有单元;它们控制每个单元的存取晶体管。位线(BL)连接同一列中的所有单元;它们连接到存取晶体管的源极。当字线被激活时,该行中所有单元的存取晶体管打开,允许电流从位线流入单元(写入单元时)或从单元流入位线(读取单元时)。一次只能激活1个字线和1个位线,这意味着只有激活的字线和位线相交处的1个单元会被写入或读取。

DRAM是一种易失性内存技术:存储电容器会泄漏电荷,因此需要频繁刷新(大约每32毫秒一次)以维持存储的数据。每次刷新读取一个单元的内容,将位线上的电压提升到理想水平,然后让这个刷新后的值流回电容器。刷新完全在DRAM芯片内部进行,没有数据流入或流出芯片。这将最大限度地减少电量浪费,但刷新仍然可能占到DRAM总功耗的10%以上。

电容器与晶体管非常相似,已经被缩小到纳米级宽度,但也有着极高的纵横比,大约1000纳米高,但直径只有几十纳米——纵横比接近100:1,电容量在6~7fF(femto-Farad)左右。每个电容器存储的电荷非常小,大约在刚写入时为4万个电子。

单元必须通过位线进出电子,但是位线上的电压会被连接到同一位线上的所有其他单元稀释。总位线电容可能总计超过30fF——稀释度为5倍。位线也非常细,这会减慢电子的速度。最后,如果单元最近没有被刷新,它可能已经显著放电,因此只能提供部分电荷。

所有这些因素意味着放电一个单元以读取其值可能会导致信号非常弱,这必须被放大。为此,每个位线的末端都连接有感测放大器(Sense amplifiers,SA),用于检测从存储单元读取的极小电荷,并将信号放大到可用的强度。这些更强的信号随后可以在系统的其他地方被读取为二进制的1或0。

感应放大器有一个巧妙的电路设计:它将活动位线与一个未使用的匹配位线进行比较,开始时两条线都被带到类似的电压。活动位线上的电压将与不活动的临近位线进行比较,使感应放大器失去平衡,并导致它将差异放大回活动位线,既放大了信号,又将新的全值,高或低,重新驱动回保持对位线开放的单元。这是一个“一石二鸟”的情况:单元同时被读取和刷新。

读取/刷新活动单元后,值可以被复制出芯片,或者通过写入操作覆盖该值。写入操作忽略刷新后的值,并使用更强的信号强制位线与新值匹配。当读取或写入完成后,字线被禁用,关闭访问晶体管,从而将任何驻留电荷困在存储电容器中。

DRAM入门历史(当DRAM仍然扩展时)

现代DRAM是通过两个独立和互补的发明实现的:1T1C存储单元和感测放大器。

1T1C单元于1967年由IBM的Robert Dennard博士发明,他也因其同名的MOS晶体管微缩定律而闻名。DRAM和扩展都是基于MOS晶体管(金属氧化物硅,晶体管栅极中的层)。

Robert Dennard关于1T1C内存单元架构的原始专利。来源:美国专利3,387,286

尽管发明了1T1C内存单元结构,但英特尔在1973年早期推出的DRAM每个单元使用了3个晶体管,中间晶体管的栅极作为存储电容器。这是一个“增益单元”,中间和最后的晶体管提供了增益,以放大中间栅极上的非常小的电荷,使得单元可以轻松读取且不干扰存储的值。

1T1C单元在理论上更好:设备更少,更容易连接在一起,体积更小。为什么没有被立即采用?因为当时还无法实际读取单元。

在发明时,1T1C单元的小电容使得它无法操作。需要第二个关键发明:感测放大器。

第一个现代感测放大器是由西门子的Karl Stein在1971年开发的,他在加利福尼亚的一次会议上展示了这一发明,但完全被忽视了。那时1T1C架构还没有被广泛采用,西门子也不知道该如何利用这项发明。Karl Stein被调到另一个与DRAM无关的岗位,在那里他的职业生涯获得了成功。

Karl Stein的原始感测放大器专利。来源:美国专利3,774,176

这种设计非常适合位线间距,并且能够缩小尺寸以跟上单元尺寸的步伐。当不使用时,感测放大器完全断电,这样在芯片上有数百万的感应放大器但不会消耗电力。感测放大器一直算是“小奇迹”。

感测放大器的时代到来花了五年多的时间。Mostek的Robert Proebsting独立(重新)发现了这个概念,到1977年,他们采用1T1C + SA架构的16kb DRAM成为市场领导者。这个成功的公式一直沿用至今——DRAM架构在近五十年后基本上还是一样的。

DRAM入门:当DRAM停止扩展

在20世纪,摩尔定律和Dennard缩放比例定律(Dennard scaling)统治了半导体行业。在其鼎盛时期,DRAM密度的增长速度超过了逻辑电路。每18个月,DRAM容量翻倍,这推动了日本晶圆厂的崛起(1981年首次超过美国市场份额,并在1987年左右达到80%峰值),以及后来韩国公司的大放异彩(1998年市场份额超过日本)。在相对简单工艺上快速的代际更替为有资金建设下一代晶圆厂的新进入者创造了机会。

在DRAM扩展的“黄金时代”,20年间每比特的价格降低3个数量级。来源:Lee, K.H., 2000年后DRAM行业的战略分析

但这种速度不可能长期持续,到了20世纪末到21世纪初,逻辑电路的扩展速度明显超过内存扩展。最近的逻辑扩展已经放缓到每两年密度提高30%~40%的速度。但与DRAM相比,这仍然是很快的,因为DRAM的扩展速度大约是其峰值的十分之一,现在需要10年时间才能将密度提高2倍。

“这次不一样”:不,内存周期已经是行业50年来的一部分。来源:Lee, K.H., 2000年后DRAM行业的战略分析

这种扩展放缓对DRAM定价动态产生了连锁反应。虽然内存传统上是一个周期性行业,但密度扩展的放缓意味着在供应有限时,成本降低的空间更小,无法缓解价格上涨。增加DRAM供应的唯一方法是建造新的晶圆厂。价格剧烈波动和高资本支出意味着只有大型公司能够生存:在1990年代中期,有20多家制造商生产DRAM,其中80%的市场份额分布在前10名中。现在,前3家供应商占据超过95%的市场份额。

由于DRAM已经商品化,供应商本质上更容易受到价格波动的影响(与逻辑或模拟产品相比),并且在市场低迷时,他们必须主要通过商品的原始价格来竞争。逻辑电路仅通过增加成本来维持摩尔定律,DRAM则没有这种奢侈。DRAM的成本很容易衡量,即美元/GB。相对于早期,过去10年价格下降缓慢——在十年间只下降了一个数量级,而过去通常只需要一半的时间。DRAM的典型峰值和低谷也很明显。

DRAM密度扩展放缓至每十年2倍,而价格受周期性效应驱动。来源:DRAMExchange, SemiAnalysis

自从进入10纳米节点以来,DRAM比特密度已经停滞不前。即使是三星的1z节点和SK海力士的1a节点中增加了极紫外(EUV)光刻,也没有显著提高密度。在电容器和感应放大器方面存在两个显著的挑战。

电容器的制造难度很大。首先,图案化要求很高,因为孔必须紧密排列,具有非常好的临界尺寸(CD)和重叠控制,以便与下面的存取晶体管接触,避免桥接或其他缺陷。电容器具有非常高的纵横比,蚀刻直而窄的孔轮廓非常困难,再加上需要更厚的硬掩模以蚀刻地更深,更厚的掩模又需要更厚的光刻胶,而光刻胶更难图案化。

接下来,必须在整个孔轮廓的壁上沉积几纳米厚的多个无缺陷层,以形成电容器。几乎每一步都在挑战现代加工技术的极限。

DRAM存储电容器需要在100:1纵横比的孔中形成许多精致的层(未按比例显示——实际电容器可能比所示高10倍)。来源:应用材料

感测放大器的情况与逻辑互连类似。它们曾经是次要的,但现在它们的难度与“主要”特征(逻辑晶体管和存储单元)相当,甚至更大。它们受到多方面的挤压。为了匹配位线的收缩,必须进行面积扩展,随着感测放大器变得更小,它们的灵敏度降低,更容易受到变化和泄漏的影响。同时,更小的电容器存储的电荷更少,因此读取它们的感测要求变得更加困难。

还有其他挑战,结果是,使用传统方法以经济的方式扩展DRAM变得越来越困难。新思想的大门已经打开——让我们探索其中的一些……

短期扩展:4F²和垂直通道晶体管

在短期内,DRAM扩展将继续沿着其传统路线图进行。对架构进行更大规模、更根本的变革需要数年时间来开发和实施。与此同时,即使只是微小改进,行业也必须响应对更好性能的需求。

短期路线图有两项创新:4F²单元布局和垂直通道晶体管(VCT)。

三星DRAM路线图。来源:三星Memcon 2024,最初由SemiEngineering发布

请注意,包括三星在内的一些公司在其路线图中将VCT归入“3D”范畴。虽然技术上是正确的,但这有点误导,因为VCT与通常所说的“3D DRAM”不同。

标准的6 F²布局与带有垂直通道晶体管的4F²。来源:CXMT IEDM 2023

4F²是按照最小特征尺寸F来描述存储单元面积的,类似于标准逻辑单元高度的轨道度量,例如“6T单元”。最小特征尺寸通常是线宽或间距宽度,在DRAM中这将是字线或位线的宽度。这是一种简单的表示单元布局密度的方式,便于比较——4F²单元只有6F²单元的2/3大小,理论上可以在不扩展最小特征尺寸的情况下增加30%的密度。需要注意的是,纯粹的单元布局并不是密度扩展的唯一限制,因此实际效益可能小于理想的30%。

4F²是单比特单元的理论极限。回想一下,特征尺寸是线宽或间距宽度(即半间距),因此线+间距模式的间距将是2F,而不是F,因此最小可能的单元大小是4F²而不是F²。因此,一旦实现了这种架构,水平扩展的唯一途径就是扩展F本身——这正在迅速变得不切实际,甚至完全不可能。

自2007年以来,DRAM一直使用6F²布局,之前是8F²。

4F²单元的关键技术是VCT。这是必要的,因为晶体管必须缩小以适应单元,而且两个接触点——到位线和到电容器的接触点——也必须适应那个尺寸,因此,是一个垂直线。在这种规模下,构建晶体管必须垂直而不是水平,将其占用空间减少到大约1F,大致与上面的电容器相匹配,同时保持足够的通道长度以使晶体管有效运作。当前的DRAM使用水平通道和水平分离的源极/漏极。这些是一个成熟且被充分理解的架构。VCT依次堆叠源极(连接到下面的位线)、通道(被栅极和控制栅极的字线包围)、漏极(连接到上面的电容器)。在制造过程中有一些权衡,有些步骤变得更容易,有些则更难,但总体而言,VCT更难制造。

三星的工艺以使用晶圆键合而著称。在一个类似于逻辑背面供电的工艺中,单元存取晶体管是在位线形成在上面之前制造的,然后将晶圆翻转并与支撑晶圆键合,因此位线现在被埋藏了。有趣的是,键合基础似乎不需要与VCT精确对齐,尽管披露没有解释外围CMOS是否会在翻转的芯片上,或者在新键合的基础上。顶部被减薄以暴露晶体管的另一端,以便在它们上面构建存储电容器。对晶圆键合工具需求增多,EVG和Tokyo Electron(TEL)将从这种新的增量需求中获益。

DRAM入门:当前变

DRAM有许多种类,每种都针对不同的目标进行了优化。相关的最新代产品包括DDR5、LPDDR5X、GDDR6X和HBM3/E。它们之间的差异几乎完全在于外围电路。各种内存单元本身是相似的,所有类型的制造方法大致相同。让我们简要介绍各种DRAM变体及其作用。

DDR5(第五代双倍数据速率)采用双列直插式存储器模块(DIMM)封装,提供最高的内存容量,因为它被封装在双列直插式存储器模块(DIMMs)中。LPDDR5X(低功耗DDR5,X表示增强型)提供低功耗运行,但需要与CPU的距离更短且电容更低,这限制了容量,因此它被用于智能手机和笔记本电脑中,这些产品需要低功耗,且可以接受布局限制。

最近,我们在一些AI加速器、苹果的专业工作站以及像Grace这样的AI输入CPU中看到了LPDDR的更大容量封装。这些新用途是由对高能效数据传输和高带宽的追求所驱动的。

在加速器中,LPDDR已成为“第二层”内存的最佳选择,它以较低(较慢)的水平提供更便宜的容量,比昂贵的HBM更经济。它在构建最高容量和可靠性特性方面存在不足,但每比特吞吐量消耗的能量比DDR5 DIMMs少一个数量级。LPDDR5X封装在英伟达Grace处理器上提供高达480GB的容量,这大约是GDDR配置容量限制的10倍(这受到电路板布局规则和满足消费级游戏系统信号要求的芯片封装的限制),并且与中等DDR服务器配置的范围相同。使用容量超过128GB的R-DIMMs可以实现更大容量的DDR5,尽管由于封装的复杂性和DIMMs上额外的寄存器(一种缓冲芯片)而成本较高。

LPDDR5X在功耗方面比DDR有优势,在成本方面比HBM有优势,但每比特能量消耗无法挑战HBM,并且它需要许多通道(与CPU的连接),这在容量增加时会挤占主板布局。它在错误校正(ECC)方面也表现不佳,随着容量的增加,出错的可能性增加,错误校正变得更加重要。为了补偿,必须转移一些容量来支持额外的错误校正。例如,英伟达Grace CPU每个计算托盘有512GB的LPDDR5X,但似乎预留了32GB用于可靠性特性,留下480GB可供使用。

即将推出的LPDDR6标准几乎没有改进,每个芯片的通道数量依然很高,和速度提升幅度相对较小,以及错误校正有限。LPDDR6不会成为HBM的竞争对手。

GDDR6X(G代表图形)专注于图形应用,以低成本提供高带宽,但延迟和功耗更高。虽然在游戏GPU中很有用,但它设计有板级容量限制和功耗水平,限制了可以使用它的AI应用的大小。

然后是HBM3E(高带宽存储器第3代,带有增强版“E”)。它优先考虑带宽和能效,但非常昂贵。HBM的两个定义特征是更宽的总线宽度和垂直堆叠的内存芯片。每个HBM芯片有256比特的I/O,是LPDDR的16倍,LPDDR每个芯片的总线宽度只有16比特。芯片是垂直堆叠的,通常是8个或更多,每4个芯片为一组进行I/O分组;总体上,封装可以提供1024比特的带宽。在HBM4中,这将翻倍至2048比特。为了最大限度地利用HBM,最好将其与计算引擎共同封装,以减少延迟和每比特能量。为了在保持与计算引擎短连接的同时扩展容量,必须向堆栈中添加更多芯片。

HBM的高成本主要是由于对芯片堆叠的需求。在典型的HBM堆栈中,8个或12个DRAM芯片(路线图上是16个及以上)相互堆叠,电力和信号通过每个芯片中的硅通孔(TSV)进行布线。TSV是直接穿过芯片的导线,用于连接芯片。TSV比用于连接堆叠芯片的旧的线键合方法更密集、性能更好、成本更高。在HBM堆栈中,必须通过TSV布线超过1200个信号线。必须专门留出大量区域,使得每个HBM DRAM芯片的尺寸是相同容量的标准DDR芯片的两倍。这也意味着对DRAM芯片的电气和热性能的分级要求更高。

这种复杂性降低了产量。例如,三星的DRAM设计失误和他们使用落后的1α节点,导致了他们的HBM产量低的令人震惊。封装是另一个主要挑战。正确对齐8个或更多芯片(每个芯片都有数千个连接)非常困难,因此由于相对较低的产量,成本高昂。目前,这是HBM供应商之间的一个关键区别,因为SK海力士可以使用其MR-MUF封装成功生产HBM3E,而三星却难以提高产品产量。美光有一个可行的解决方案,但需要大幅扩大生产规模。

尽管成本高昂且产量面临挑战,HBM3E目前是有史以来存储行业最有价值、利润率最高的产品。这主要是因为对于大型AI加速器来说,没有其他类型的DRAM是可行的替代品。虽然随着三星提高产量,美光扩大生产规模,利润率可能会下降,但AI加速器的内存需求将继续增长——在一定程度上抵消了这种新供应带来的好处。

HBM在带宽和封装密度方面占据主导地位。来源:SemiAnalysis

简而言之,高带宽和非常高的带宽密度,加上最佳的每比特能量和真正的ECC(错误校正)能力,使HBM3E目前成为AI加速器的赢家。这就是为什么像英伟达H100和AMD MI300X这样的产品使用它。GDDR6/X尽管容量很小,但按同样的指标下排在第二位。LPDDR5和DDR5就更糟了,两者都不适合加速器的需求。

目前的HBM解决方案成本高昂,并且扩展将越来越困难。我们是如何陷入这种局面的?

HBM路线图

HBM是一种围绕传统DRAM理念构建的封装解决方案,但采用高密度和邻近性封装,以尝试解决AI和其他高性能计算的带宽和功耗问题。

目前,所有领先的AI GPU都使用HBM作为内存。2025年的计划包括使用32Gb芯片的12层HBM3E,每个堆栈共48 GB,每个线路的数据传输速率达到8Gbps。在GPU服务器中,首批支持CPU的统一内存版本已经推出,包括AMD MI300A和英伟达Grace Hopper。

英伟达Grace CPU具有高容量LPDDR5X,而GPU具有高带宽HBM3。但是,CPU和GPU位于不同的封装中,通过NVLink-C2C以900GB/s的速度连接。这种模型更易于集成,但在软件方面更具挑战性。连接到另一个芯片的内存的延迟要高得多,可能会影响大量工作负载。因此,内存并不完全统一,并伴随着自身的挑战。

三星HBM路线图(图源:三星)

美光HBM路线图(图源:美光)

HBM4还需要几年时间才能问世,三星和美光声称它将达到16层堆栈,每层堆栈1.5TB/s的带宽。这比目前的带宽高出一倍多,而功耗仅为1.3~1.5倍,但这种扩展还不够,因为内存的功耗总体上还在继续增加。HBM4还将改变每层堆栈的宽度为2048位,将数据速率略微降低至7.5Gbps,则会有助于降低功耗和实现信号完整性。数据速率很可能会提高到HBM3E和HBM4E的水平,或者类似水平。

另一个重大变化是HBM基础裸片(Base Die)。基础裸片将采用FinFET工艺制造,而不是现在使用的平面CMOS技术。对于不具备这种逻辑能力的美光和SK海力士来说,基础裸片将由代工厂制造,台积电已经宣布他们将成为SK海力士的合作伙伴。此外,台积电还将为个别客户生产基础裸片。

公告显示,HBM4预测至少将使用2种不同形式的基础,从而允许针对不同的速度和长度优化内存接口。控制DRAM状态机的功能可能会转移到基础裸片上,以更有效地控制DRAM芯片,而仅垂直连接可能会降低每比特的能量消耗。

定制HBM可以实现多种其他封装架构,而不仅仅是我们今天看到的基于CoWoS的封装。可能会有PHY(端口物理层)中继器来实现多排HBM菊花链串联,尽管超过2排后,收益将逐渐减少。

HBM技术路线图(图源:SK海力士)

对于HBM4及其后续产品,有人建议采用混合键合技术。由于消除了凸块间隙,这将使HBM堆栈变得更薄,并能改善散热。此外,它还能使堆栈高度达到16~20层以上。它还将减少信号传输的物理距离,从而降低少量功耗。但是,挑战是巨大的,要产生一个由16层以上裸片(没有一片芯片是完全平整的)组成的键合堆栈并非易事——目前还没有接近量产的解决方案。

所有最初的HBM4都不会使用混合键合技术,而且我们预计这种情况还会持续很长时间。

CPU、GPU或加速器与内存之间的连接在基础芯片中,改善这种连接是克服内存限制的一个可能途径。Eliyan是一家由美光和英特尔等资助的初创公司,他们的UMI定制接口率先采用了这种方法。

UMI定制接口采用混合键合技术(图源:Eliyan)

这种UMI接口与ASIC芯片一起使用,后者可用作HBM堆栈的基础芯片或其他内存类型的模块控制器。此芯片包含内存控制器和内存芯片的物理互连(PHY)。UMI外部连接到主机GPU,与主机的结构相连。它们采用全CMOS工艺制造,可以快速高效地使用先进的“Nulink”协议连接到主机,并消除主机硅片上的内存控制器占用空间。

Eliyan的封装技术甚至可以使用标准基板,并且比常规先进封装具有更大的覆盖范围。这可能允许HBM不与ASIC芯片相邻,这意味着可以容纳更高的容量。他们的方法还占用了主机上的更少面积和边缘,这意味着可以增加通道宽度。标准化的UMI内存芯片可以允许使用HBM、DDR、CXL内存等,而无需固定为特定类型,从而显著增加灵活性。虽然这种方法可能在短期内提供改进,但它并没有解决HBM的根本性成本问题。

新兴存储技术

自从DRAM和NAND成为主流以来,人们一直在研究更好的替代品。这些替代品的总称是“新兴存储技术”。这个术语有点用词不当,因为到目前为止,它们中没有一个能够“出现”成为大批量产品。鉴于围绕AI的新挑战和激励措施,它们至少值得简短讨论。

最有前景的离散应用存储器是FeRAM(铁电随机存取存储器)。它们在存储电容器中不使用电介质(绝缘材料),而是使用铁电体(在电场中极化的材料)。这些材料具有非易失性的理想特性,即它们可以在关闭时存储数据,并且不需要在刷新上浪费电力或时间。

美光在2023年IEDM上展示了令人鼓舞的结果,其密度与他们的D1β DRAM相当,同时具有良好的耐用性和保留性能。换句话说,如果不是因为成本问题,它将是AI/ML用途的良好候选者。它的制造过程复杂,并且比传统DRAM更多地使用了特殊材料,以至于目前它根本没有竞争力。

MRAM(磁性存储器)是另一个有前景的研究领域。它不是使用电荷来存储数据,而是通过磁性方式存储。大多数设计使用磁隧道结(MTJ)作为比特存储单元。

MRAM,采用磁性机制而非电气机制(图源:SK海力士)

在IEDM 2022上,SK海力士和铠侠展示了间距为45nm、临界尺寸为20nm的1-selector MTJ单元。它们共同实现了迄今为止最高的MRAM密度0.49Gb/mm²,高于美光的D1β DRAM(密度为0.435Gb/mm²)。该单元甚至采用4F²设计,他们的目标是以独立封装的形式生产,作为DRAM的替代品。

目前,没有任何替代存储器能够挑战DRAM。有些存储器单元更大或更慢,有些存储器的工艺更昂贵,有些存储器的产量较低,且大多数存储器的耐用性有限。实际上,MRAM或相变存储器的出货产品以MB而不是GB为单位。这种情况可能会改变,因为涉及的资金很多,而且可能存在一种尚未公开的制胜组合,但在这设备和生产规模方面都还有很多工作要做。

存内计算(CIM

DRAM从一开始就受限于其架构。它是一个简单的状态机,没有任何控制逻辑,这有助于降低成本,但这意味着它依赖于主机(CPU)来控制它。

这种模式根深蒂固:现代DRAM制造工艺经过了高度优化和专业化,因此无法实际生产控制逻辑。行业组织JEDEC(固态技术协会)在制定新标准时也要求尽量减少逻辑干扰。

“Dumb”DRAM:控制逻辑与内存是分开的,因此命令必须通过一个缓慢、低效的接口传递(图源:SemiAnalysis)

DRAM芯片完全依赖于主机:所有命令都通过一个共享接口传输到内存中的多个存储体,代表主机中的多个线程。每个命令都需要4个或更多步骤以精确的时间发出,以保持DRAM正常运行。DRAM芯片甚至没有逻辑来避免冲突。

使用古老的半双工接口会加剧这种情况:DRAM芯片可以读取或写入数据,但不能同时进行。主机具有DRAM的精确模型,并且必须预测每个时钟周期接口应该设置为读取还是写入。命令和数据在不同的线路发送,这降低了时序复杂性,但增加了线路数量和GPU或CPU上的“滩头”拥挤。总体而言,内存接口的比特率、滩头密度和效率比逻辑芯片使用的替代PHY低了一个数量级。

这些缺点造成的结果是,服务器上最常见的DDR5 DIMM在主机控制器和接口上消耗了超过99%的读写能量。其他变体略好一些——HBM能量使用大约95%用于接口,5%用于存储单元读写入,但仍然远未达到DRAM的全部潜力。

功能完全放错了地方。当然,解决方案是将其移到正确的位置:控制逻辑应该与内存一起放在芯片上。这就是存内计算(CIM)。

存内计算:释放存储体潜力

DRAM存储体具有令人难以置信的性能潜力,但由于接口的原因,这些潜力几乎被完全浪费了。

存储体是DRAM构造的基本单位。它们由8个子存储体组成,每个子存储体有64Mb(8k行×8k比特)的内存。存储体一次激活并刷新1行8k比特,但在任何I/O操作中仅传输其中的256比特。此限制是由于外部连接到感测放大器的:虽然行由8k个感测放大器支持,但只有1/32的感测放大器(256个)连接到子存储体外,这意味着读取或写入操作限制在256比特。

(a)高电容器的密集垫限制了对感测放大器的访问(图源:SemiAnalysis)

(b)FIB拆解DDR4 DRAM的感测放大器区域(图源:Marazzi等)

(c)1β DRAM 中垫区边缘的图形(图源:美光)

感测放大器位于一个“峡谷”中,四周环绕着高大的电容器。在上面苏黎世联邦理工学院的聚焦离子束(FIB)拆解图中,可以看到较高处的布线需要延伸至下方的高通孔才能与感测放大器接触。

即便如此,由于接口有限,每次只能访问32个中的1个,一个存储体的峰值读写容量大约为256Gb/s,平均接近128Gb/s,因为至少50%的时间用于切换到新的活动行。对于一个16Gb的芯片来说,如果有32个存储体,那么一个芯片的全部潜力就是4TB/s。

在层次结构的更上层,存储体以存储体组的形式连接,存储体组又连接到DRAM芯片的接口。在HBM中,每个芯片有256条数据线,峰值吞吐量为每芯片256GB/s。然而,这个瓶颈只能利用存储体潜在潜力的1/16。

图源:SemiAnalysis

更糟糕的是,将单个比特数据从芯片中传输出去需要2pJ的能量,比将其移入或移出存储单元所需的能量多20倍。大部分能量发生在DQ(用于读写的数据线)线的两端接口,以及主机上的控制器逻辑中。

在这种浪费的架构下,不可避免地需要付出努力来获取更多的潜在性能。

存内计算:DRAM的全部潜力

即使是简单的理论示例,也显示出这里存在巨大的潜力。实施UCIe(通用小芯片互连)标准将允许每毫米边缘实现11Tbps的吞吐量——比HBM3E高近12倍。每比特的能量会下降一个数量级,从2pJ降到0.25pJ。而UCIe甚至不是最新的解决方案……以Eliyan的专有Nulink标准为例,声称有更大的改进。

图源:Tom's Hardware

需要注意的是,如果主机结构通过接口扩展,那么必须在DRAM端处理结构命令集的一个子集。每个存储体将需要本地实现状态机(预充电、地址选择、激活、读/写、关闭等)。这需要在DRAM芯片上制造(相对)复杂的片上逻辑。

存内计算:前进路和可能的赢家

当然,向DRAM芯片添加逻辑并非易事。好消息是,HBM包括一个CMOS基础芯片,当3D DRAM到来时,几乎可以肯定的是,良好的CMOS逻辑会被键合在内存堆栈的顶部或底部。换句话说,这种架构可以在内存中包含一些计算功能,芯片制造商将有动力这样做。

这里有一些唾手可得的成果:考虑一下如果HBM采用每根数据线32Gbps的GDDR7速率会发生什么。GDDR7证明了可以在DRAM芯片上制造足够快的晶体管,而TSV到基础堆栈的垂直距离不到1毫米,这应该能使能量保持在0.25pJ/bit范围内。这引出了一个问题:为什么JEDEC不在这里采用改进的标准呢?

基础芯片上的外部接口可以大幅升级到现代设计,每毫米边缘提供超过1TB/s的吞吐量,每比特能量仅为几分之一pJ。在知识产权战争中,有人将会大获全胜。虽然JEDEC有可能采用一个选择作为标准,但更有可能的是,这将由行动更快的内存/GPU供应商配对来完成,因为JEDEC通常需要数年时间制定标准。

图源:SemiAnalysis

随着第三方基础芯片的引入,我们已经看到HBM4可能出现真正的变化,这必将引发一系列实验。我们可能会看到卸载通道控制、互连上的纯结构扩展、每比特能量在厘米级距离上的减少,以及与其他远离主机的HBM行或第二层内存(如LPDDR存储体)的菊花链连接。

通过这种方式,设计可以规避在内存堆栈内进行计算的功率限制,而是使用基础芯片上的现代化接口,允许邻近芯片具有计算所需的带宽和低每比特能耗,就像在内存中一样进行计算。

而随后,DRAM即将迎来3D革命。这将意味着存储器制造商和晶圆厂设备的重大转变。(校对/孙乐)

参考链接:https://www.semianalysis.com/p/the-memory-wall

作者:DYLAN PATEL, JEFF KOCH, TANJ, AND 2 OTHERS

责编: 李梅
来源:爱集微 #DRAM# #HBM#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...