• 收藏

  • 点赞

  • 评论

  • 微信扫一扫分享

【芯视野】智能芯片2.0:多元异构下的算力“缝合怪”

来源:爱集微

#芯视野#

#芯片#

#CPU#

# GPGPU#

#DPU#

2022-07-23

集微网报道 中国革命成功最核心的经验有一条:永远只做最难的事情。放眼到半导体设计业,无疑“高端通用芯片”是最难的事情之一,而国内半导体要突破重重包围,实现高端通用芯片的破局亦是必然之路。

原因无他,高端通用芯片代表着半导体业最高的技术和水准,其在未来的新应用和新场景,将决定着半导体业未来的新方向和新趋势。随着半导体业驱动力从智能手机转向HPC、数据中心、AIoT、智能汽车等,高端通用芯片正迎来新的进化论。

变局

作为高端通用芯片的主力,CPU一直处于变革的C位。而且,因CPU业垄断性强、技术壁垒高,经验老道的巨头和锋芒毕露的新锐齐聚,CPU变革对于行业的震撼力是毋庸置疑的。

在日前举办的2022集微半导体峰会上,此芯科技CEO孙文剑表示,之前CPU以执行串行任务为主,但随着应用对图形、人工智能等高算力的要求,并行计算越来越重要。这是消费者的声音,即市场需要更快、更长续航、更加智能的产品。如果将以往的CPU、GPU、NPU等称为智能芯片1.0时代,那应用场景的复杂化将带动并行和串行的计算,因而芯片技术的趋势必然是走向多元异构架构融合,即进入智能芯片2.0时代。

在孙文剑看来,在智能芯片2.0时代,在系统级芯片SoC层面需多核异构,包含CPU、NPU、DSP、GPU等算力单元。异构计算可实现算力的实时智能分配,充分发挥每一个运算单元的算力优势,实现能耗比的优化,促进SoC发挥强有力的效能。

“智能计算2.0时代的深层含义还包括在SoC层面实现异构之后,结合系统硬件及操作系统实现系统级的异构计算,达到软硬件的协同混合计算;而实现系统级异构计算的下一步进阶,是向平台级的异构计算迈进,即跨端边云进行算力的智能分配以及运算设备之间的无缝切换,这是未来计算发展的大趋势。” 孙文剑道出了趋势所向。

在分外拥挤的GPU赛道,算力仍是一大硬指标。在GPGPU领域深耕的天数智芯首席技术官呂坚平博士提到,GPU需匹配各种通用并行计算,尤其是包括AI训练推理、图形渲染以及通用计算皆以大量可并行处理的乘加(MAC) 计算为主的新兴应用的计算需求,未来如何在图形、AI、通用计算领域充分发挥优势仍是业界着力的方向。

DPU作为近年来的新秀,已经引得“无数英雄竞折腰”。集微咨询(JW Insights)分析师冯翔指出,伴随着数据中心从业务驱动走向数据驱动时代,对算力的合理化部署变得愈发重要,硬件部署也发生了翻天覆地的变化。最近大热的DPU、IPU等芯片乘势而起,不仅可进一步卸载CPU算力,同时依靠可编程能力支撑网络、存储、虚拟化、安全等重任。

 

冯翔分析,从最初原始网卡只是做些网络协议处理,进化到智能网卡再到DPU的“无所不包”,DPU已成为CPU+GPU+ DPU三足鼎立的重要支点。国内DPU的比拼重心已从融资到流片,蔓延到了商业化落地端,谁能够抢先攻略市场或将赢得更多的胜算。

进化

随着CPU、GPU、DPU等老将新兵多路并进,进化的路径也摆在了从业者的面前,究竟该如何解锁?

对于智能芯片2.0时代CPU的进化,孙文剑认为,实现端、边、云混合智能计算,要看到决定CPU的性能有三大因素:40%来自于制程;40%来自设计以及系统层面的优化,CPU架构发挥重要作用;20%来自于软硬件协同的优化以及算力的智能分配。

以往摩尔定律充分推动了制程的进步,但随着新制程节点成熟周期变长、成本增加显著,孙文剑直言,CPU系统性能提升不能仅依赖于制程进步,还要更多在另外的60%层面发力。

对于DPU的进化,冯翔直接从X、Y、Z三大方向进行了剖析。

“最原始的网卡处在原点的位置,X轴是其在狭义的网络数据处理功能上的迭代,Y轴则是在新的数据中心网络架构中对数据和控制层面工作的软件定义和虚拟化工作的进阶,Z轴则真正涉及到业务层面上。”冯翔道出了其间的原委。

他进一步详细解释道,“目前的DPU还处在X与Y方面的融合,而即未来将实现的Z轴的融合,实现超融合架构,未来理想的DPU将是多矩阵、多元化、软硬兼顾、可软硬件编程灵活性的。

围绕GPU,业界意识到尽管目前GPU可在图形、AI、通用计算领域充分发挥优势,但这三者目前是处于分裂的状态。

如何“分”而治之?吕坚平认为,在这一过程中,对图形的优化往往会导致AI的缺失,对AI的优化往往也会影响图形的优化。但图形渲染本身可微分之后,也可变成AI的一部分。因而通用GPU的进化之路是如何开发图形并兼顾通用计算。

基于通用GPU是一款基于DSA思路设计的产品,吕坚平进一步分析,首先,实现DSA通用化将可发挥通过GPU的优势,即将DSA算力迭代融入通用GPU算力池,既可提升效能,又能维持通用及可编程性。其次,通过图形计算化来跨接先进图形,从而让图形充分利用算力并大幅减少图形专用硬件。最后,通过硬件微分化来促进AI图形的融合,即将图形硬件可微分,使其融入实现AI算法的计算图谱,将图形渲染纳入AI问题解决典范,从而大幅促进AI与图形的融合。

生态

无论如何进化,但万变不离其宗:脱离了生态将注定是无源之水。正如孙文剑所言,端芯片绕不开的壁垒就是生态,一个成功的高端芯片必须要融入到大的生态当中才能成功。

相应地,CPU的落地一定要在整个生态圈中结合着不同的操作系统、应用程序才能真正提供价值。

孙文剑强调,端侧业界看到安卓、Windows等等都全力支持Arm向上走,如今年2月微软建立了Windows on Arm工作组,5月推出了端到端的Windows on Arm工具链,在操作系统和硬件的合力支撑之下这一生态会快速崛起。国内操作系统如统信、麒麟、鸿蒙等也在全力支持Arm CPU的发展,Arm CPU在端侧走到了一个历史变革的窗口期

从数据中心角度考量,孙文剑建议CPU厂商要与云服务厂商进行紧密的结合,不断完善云程序在CPU上无缝的链接和调度。

基于Arm CPU有不同的生态,孙文剑还提议要走点线面的共赢之路:“一个CPU厂商很难缔造一个生态,希望与CPU的生态合作伙伴把手紧紧握在一起,组成一条线,织成一个面,合作共赢,优势互补,迎接更加波澜壮阔的智能计算2.0时代的到来。

值得注意的是,传统的x86架构、兴起的RISC-V架构以及国内走自主核架构的CPU阵营各有拥趸,亦各有所成,未来的比拼将围绕性能、生态和应用全面展开。

谈及生态,中兴通讯硬件专家贺小龙表达的观点是云边端是一个持续发展、不断协同的过程,他们是共生共融的,生态在这一过程中也要良性循环协同发展。

“云端将持续发展,包括网络、存储、安全等一系列的卸载释放算力是未来持续的一大趋势。边侧也会持续加强边缘计算。端有不同的应用场景,在整个生态中众多厂家在不断增强端站的能力,也有可能逐步云化,协同发展。”贺小龙最后分享说。(校对/张轶群)

责编: 张轶群

李映

作者

微信:ilovekm2008

邮箱:liying@ijiwei.com

作者简介

读了这篇文章的人还读了...

关闭
加载

PDF 加载中...