LPU 掀热潮！传英伟达即将发布，国内厂商重点布局

作者：陈炳欣 03-11 14:21

来源：爱集微 #LPU# #英伟达# #上市公司分析#

1.7w

随着AI大模型从训练阶段全面转向规模化推理，LPU（语言处理单元）成为全球算力竞赛的新焦点。近期行业消息显示，英伟达计划在GTC 2026大会推出专为推理优化的LPU新品，并将在下一代Feynman（费曼）架构中深度集成LPU核心。与此同时，国际国内芯片厂商也在同步发力，围绕低延迟、高能效推理赛道密集布局。一场由LPU驱动的AI算力变革正在加速到来。

推理时代来临，LPU成行业新风口

AI产业正在进入推理为王的阶段。实时对话、多模态交互、自动驾驶、金融高频决策等场景，对算力提出低延迟、高吞吐、低成本的需求，传统通用GPU在推理环节的效率短板日益凸显。

LPU作为专用推理芯片，接近ASIC，核心设计围绕三大要点：架构专一，面向大模型推理优化，不兼顾训练与图形渲染，极致聚焦效率；采用SRAM近存，以片上SRAM替代传统HBM作为核心存储，可大幅降低数据访问延迟，突破“内存墙”；确定性执行，采用静态数据流调度，消除延迟波动，实现毫秒级实时响应。

行业普遍认为，LPU将成为AI 推理的标配算力单元，是继GPU之后，下一代AI基础设施的关键芯片。

英伟达重兵押注，国际巨头同台竞技

从近期的运作来看，英伟达计划通过技术整合与产品迭代，把LPU打造为抢占推理市场的关键产品。2025年底，英伟达以200亿美元获得AI芯片初创公司Groq的LPU技术非独家许可，并吸纳其由“TPU之父”Jonathan Ross领衔的公司核心团队。

业界分析，英伟达此举的目标有两个：一是补强即时推理能力，借助Groq的低延迟，解决GPU在实时对话场景延迟高、波动大的问题。二是减轻对HBM的高度依赖：LPU的存储单元采用SRAM，而非一直供给紧绷的HBM，可以降低规模化部署门槛。

外界推测，英伟达将在GTC 2026上发布首款原生LPU推理芯片，主打边缘/低延迟场景，延迟<1ms；2026年Q3将推出Blackwell-2、GPU+LPU混合架构，推理性能提升3倍，能效比提升4倍；2028年在下一代Feynman架构上通过3D堆叠集成LPU，形成CPX（Prefill）+LPU（Decode）分工，全栈优化的推理流程。

面对英伟达的策略规划，国际大厂纷纷跟进。谷歌以TPU v4/v5为基础，内置推理专用核，依托Gemini与云服务构建封闭生态。英特尔通过Gaudi系列芯片，在推理场景下持续优化片上存储架构，抢占市场份额。AMD在MI400/500系列中优化推理模块，提升能效与延迟表现。三星在硅谷组建专门团队，研发对标英伟达LPU的AI芯片，主打边缘计算与高性价比数据中心市场。LPU已成为全球芯片巨头推理战场的必争之地。

国内厂商发力，紧跟国际前沿

这些年国内AI芯片的发展很快，紧跟国际前沿，目前有多家初创公司在技术路线上均可与Groq形成对标。

无问芯穹成立时间于2023年，创始团队来自清华大学电子工程系，核心技术路线为异构计算优化+软硬协同 (M×N中间层)，不单纯依赖单一硬件架构，而是通过软件栈和编译优化技术，打通不同芯片之间的壁垒，实现算力资源的池化和高效调度。

从相似点来看，无问芯穹明确提出了LPU的概念——无穹LPU，旨在提供类似Groq的高吞吐、低延迟推理能力。其目标是让一张卡就能高效运行大模型。但无问芯穹早期更多是以IP核或解决方案的形式出现，利用其编译优化技术（M×N中间层）在异构芯片上实现LPU般的效果。它不一定像Groq那样只卖自研的独立物理芯片，而是提供一种让现有或定制芯片具备LPU能力的“软+硬”全栈方案。

后摩智能成立于2020年，核心技术路线为存算一体，通过将计算单元嵌入存储器中，大幅降低数据搬运功耗，提升算力能效比。有媒体将后摩智能称为“中国LPU的破局者”。后摩智能发布的首款存算一体智驾芯片鸿途H30，基于SRAM存储介质，最高物理算力 256TOPS，典型功耗35W。

与LPU相较，两者都是为了解决传统冯·诺依曼架构中数据搬运导致的功耗高、延迟大的问题，适合用于大模型推理。不同之处在于Groq LPU的核心是将大容量SRAM作为主存，通过编译器静态调度实现确定性执行；而后摩智能是将计算单元直接嵌入存储器，从根本上消除数据搬运。

清微智能成立于2018年，核心团队源自清华大学以及海思、英伟达、苹果、AMD等公司。核心技术路线为可重构计算。公司提出并实现了RPU架构。该架构兼具高能效和高灵活性，硬件电路可根据算法需求动态重组。

与LPU相较，两者都强调数据流驱动而非传统的指令驱动。清微智能的芯片可以通过软件定义硬件结构，动态调整计算资源，具有极高的灵活性和能效，同样能实现低延迟推理。不同点在于Groq LPU是固定的数据流架构，依赖编译器进行静态规划；清微智能的RPU具备“可重构”特性，硬件电路可以根据任务需求实时重组。

智芯科成立于2019年，核心技术路线同样为存算一体，专注于超低功耗场景。基于SRAM存内计算技术，主打精度无损和极致低功耗，主要解决端侧设备的续航和算力矛盾。与LPU相较，智芯科更侧重于端侧超低功耗场景（如智能开关、AI眼镜、玩具等），而非数据中心级的大模型推理集群。其芯片规模和通用性可能不如Groq那么大。

此外，国内还有很多厂商都在推进低延迟、高能效，降低对HBM依赖的方向进行开发，如在现有架构中增加推理专用加速核，优化SRAM调度与延迟表现，实现“LPU化”升级，包括寒武纪、华为昇腾、海光、壁仞等头部厂商。差异在于国内更侧重于成熟制程、自主工具链，并与国产大模型进行适配。