十个月两轮超20亿融资：商汤系“分拆军”曦望成为国内首家纯推理GPU独角兽

作者：集小微 04-20 22:33

来源：爱集微 #GPU# #融资# #曦望#

2.5w

2026年4月20日，专注于全栈自研AI推理GPU的杭州曦望芯科智能科技有限公司（简称“曦望”）宣布已完成新一轮超10亿元人民币融资。距离上一轮近10亿元的融资（2025年7月初）不到10个月时间。

至此，曦望自2024年底从商汤大芯片部门分拆独立以来，累计已完成七轮融资，总融资额约40亿元，成为国内首家估值突破百亿元的纯推理GPU独角兽。

本轮融资由多家机构参与，具体名单尚未全部披露。资金将主要用于三方面，包括新一代“启望S3”推理GPU的规模化量产与交付、全栈软件生态建设，以及后续S4/S5芯片的研发迭代。

“推理需求爆发正当时”
曦望在官方公告中指出，2026年被行业视为“AI智能体元年”。大模型从对话式交互进化为可思考、可执行的数字员工，推理算力需求呈现指数级增长。英伟达GTC 2026大会也已明确，AI产业正全面迈入“推理落地、智能体普及”的新阶段，并将“每瓦Token吞吐量”定义为核心竞争力——这与曦望自创立之初的主攻方向高度一致。

曦望董事长徐冰表示：“AI算力基建的重心已彻底切换。2026年，AI推理计算需求将达到训练需求的4至5倍，推理算力租赁价格在半年内上涨了近40%。”

团队与产品：400人团队，三代芯片布局
目前曦望团队规模已扩大至400人，研发人员占比超过80%，硕士及以上学历同样超过80%。核心团队来自英伟达、AMD、华为海思等头部芯片企业。

产品线方面，已量产的曦望S1和S2，以及即将量产的旗舰产品“启望S3”构成了公司的三代芯片矩阵：

S1：面向云端及边缘端视觉推理专用芯片，主攻视频分析模型，累计出货超2万片。
S2：7nm工艺的GPGPU，兼容英伟达CUDA生态，性能对标A100，实现指令集、IP架构、算子及编译器全自研。
启望S3：2026年1月发布，国内首款搭载LPDDR6（同时兼容LPDDR5X）的推理GPU。针对Agent推理需求，从AI Core到内存IO全链路重构，推理性能较S2提升5倍，目标将Token成本降低90%。

S3的核心突破在于算子利用率：GEMM和Flash Attention（占大模型推理计算量90%以上）的利用率分别达到约99%和98%，标称算力几乎全部转化为有效吞吐。此外，S3原生支持FP4低精度推理，在DeepSeek V3/R1等主流模型上实现接近无损的FP4推理，吞吐量较FP16提升3至4倍。

未来规划：量产、适配、前沿探索
在本轮融资支持下，曦望2026年将全力推进S3芯片的量产交付，并完成与国内外主流大模型、多模态模型及Agent框架的全面适配。同时，公司已规划下一代S4高性能推理GPU和S5安全可控推理GPU，并持续投入近存计算、光电共封等前沿技术。

徐冰表示：“启望S3不是简单的性能升级，而是对AI推理成本曲线的一次重构。我们的目标是让推理成本降至‘百万Token一分钱’，让AI像水电一样成为普惠基础设施。”