LPU 掀热潮!传英伟达即将发布,国内厂商重点布局

来源:爱集微 #LPU# #英伟达# #上市公司分析#
1439

随着AI大模型从训练阶段全面转向规模化推理,LPU(语言处理单元)成为全球算力竞赛的新焦点。近期行业消息显示,英伟达计划在GTC 2026大会推出专为推理优化的LPU新品,并将在下一代Feynman(费曼)架构中深度集成LPU核心。与此同时,国际国内芯片厂商也在同步发力,围绕低延迟、高能效推理赛道密集布局。一场由LPU驱动的AI算力变革正在加速到来。

推理时代来临,LPU成行业新风口

AI产业正在进入推理为王的阶段。实时对话、多模态交互、自动驾驶、金融高频决策等场景,对算力提出低延迟、高吞吐、低成本的需求,传统通用GPU在推理环节的效率短板日益凸显。

LPU作为专用推理芯片,接近ASIC,核心设计围绕三大要点:架构专一,面向大模型推理优化,不兼顾训练与图形渲染,极致聚焦效率;采用SRAM近存,以片上SRAM替代传统HBM作为核心存储,可大幅降低数据访问延迟,突破“内存墙”;确定性执行,采用静态数据流调度,消除延迟波动,实现毫秒级实时响应。

行业普遍认为,LPU将成为AI 推理的标配算力单元,是继GPU之后,下一代AI基础设施的关键芯片。

英伟达重兵押注,国际巨头同台竞技

从近期的运作来看,英伟达计划通过技术整合与产品迭代,把LPU打造为抢占推理市场的关键产品。2025年底,英伟达以200亿美元获得AI芯片初创公司Groq的LPU技术非独家许可,并吸纳其由“TPU之父”Jonathan Ross领衔的公司核心团队。

业界分析,英伟达此举的目标有两个:一是补强即时推理能力,借助Groq的低延迟,解决GPU在实时对话场景延迟高、波动大的问题。二是减轻对HBM的高度依赖:LPU的存储单元采用SRAM,而非一直供给紧绷的HBM,可以降低规模化部署门槛。

外界推测,英伟达将在GTC 2026上发布首款原生LPU推理芯片,主打边缘/低延迟场景,延迟<1ms;2026年Q3将推出Blackwell-2、GPU+LPU混合架构,推理性能提升3倍,能效比提升4倍;2028年在下一代Feynman架构上通过3D堆叠集成LPU,形成CPX(Prefill)+LPU(Decode)分工,全栈优化的推理流程。

面对英伟达的策略规划,国际大厂纷纷跟进。谷歌以TPU v4/v5为基础,内置推理专用核,依托Gemini与云服务构建封闭生态。英特尔通过Gaudi系列芯片,在推理场景下持续优化片上存储架构,抢占市场份额。AMD在MI400/500系列中优化推理模块,提升能效与延迟表现。三星在硅谷组建专门团队,研发对标英伟达LPU的AI芯片,主打边缘计算与高性价比数据中心市场。LPU已成为全球芯片巨头推理战场的必争之地。

国内厂商发力,紧跟国际前沿

这些年国内AI芯片的发展很快,紧跟国际前沿,目前有多家初创公司在技术路线上均可与Groq形成对标。

无问芯穹成立时间于2023年,创始团队来自清华大学电子工程系,核心技术路线为异构计算优化+软硬协同 (M×N中间层),不单纯依赖单一硬件架构,而是通过软件栈和编译优化技术,打通不同芯片之间的壁垒,实现算力资源的池化和高效调度。

从相似点来看,无问芯穹明确提出了LPU的概念——无穹LPU,旨在提供类似Groq的高吞吐、低延迟推理能力。其目标是让一张卡就能高效运行大模型。但无问芯穹早期更多是以IP核或解决方案的形式出现,利用其编译优化技术(M×N中间层)在异构芯片上实现LPU般的效果。它不一定像Groq那样只卖自研的独立物理芯片,而是提供一种让现有或定制芯片具备LPU能力的“软+硬”全栈方案。

后摩智能成立于2020年,核心技术路线为存算一体,通过将计算单元嵌入存储器中,大幅降低数据搬运功耗,提升算力能效比。有媒体将后摩智能称为“中国LPU的破局者”。后摩智能发布的首款存算一体智驾芯片鸿途H30,基于SRAM存储介质,最高物理算力 256TOPS,典型功耗35W。

与LPU相较,两者都是为了解决传统冯·诺依曼架构中数据搬运导致的功耗高、延迟大的问题,适合用于大模型推理。不同之处在于Groq LPU的核心是将大容量SRAM作为主存,通过编译器静态调度实现确定性执行;而后摩智能是将计算单元直接嵌入存储器,从根本上消除数据搬运。

清微智能成立于2018年,核心团队源自清华大学以及海思、英伟达、苹果、AMD等公司。核心技术路线为可重构计算。公司提出并实现了RPU架构。该架构兼具高能效和高灵活性,硬件电路可根据算法需求动态重组。

与LPU相较,两者都强调数据流驱动而非传统的指令驱动。清微智能的芯片可以通过软件定义硬件结构,动态调整计算资源,具有极高的灵活性和能效,同样能实现低延迟推理。不同点在于Groq LPU是固定的数据流架构,依赖编译器进行静态规划;清微智能的RPU具备“可重构”特性,硬件电路可以根据任务需求实时重组。

智芯科成立于2019年,核心技术路线同样为存算一体,专注于超低功耗场景。基于SRAM存内计算技术,主打精度无损和极致低功耗,主要解决端侧设备的续航和算力矛盾。与LPU相较,智芯科更侧重于端侧超低功耗场景(如智能开关、AI眼镜、玩具等),而非数据中心级的大模型推理集群。其芯片规模和通用性可能不如Groq那么大。

此外,国内还有很多厂商都在推进低延迟、高能效,降低对HBM依赖的方向进行开发,如在现有架构中增加推理专用加速核,优化SRAM调度与延迟表现,实现“LPU化”升级,包括寒武纪、华为昇腾、海光、壁仞等头部厂商。差异在于国内更侧重于成熟制程、自主工具链,并与国产大模型进行适配。

责编: 张轶群
来源:爱集微 #LPU# #英伟达# #上市公司分析#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...