第四代英特尔至强最新进展:七大加速“神器”加持,多应用场景性能显著提升

来源:爱集微 #英特尔# #第四代至强#
2.1w

随着我国数字化和智能化转型的不断深入,数据持续呈现爆炸性增长,对海量数据的计算、存储及处理,推动着云计算、数据中心、智算中心等基础设施的建设及扩容。这些都对基础算力芯片带来新的需求。

面对日益多元的数字化创新需求,英特尔提出了XPU产品战略,打造涵盖从云到端的全面产品组合,提供从CPU到GPU、FPGA、IPU等多种异构算力资源,为不同业务和应用场景需求提供定制化算力服务。

前不久,英特尔推出了第四代至强可扩展处理器(代号为Sapphire Rapids),这是英特尔面向服务器市场的最新一代CPU,可提供比上一代更好的单核性能以及更高的密度,带来了更高的能效比。

英特尔市场营销集团副总裁,中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰表示,“第四代至强可扩展处理器是一个高度创新的平台。芯片采用Intel 7制程工艺制造,具有全新的芯片架构。通过集成高性能核、更多内核数量、业内高需求的数据中心工作负载的相关加速器,以及业界领先的DDR5、CXL1.1、PCIe 5.0,让加速无所不在。”

加速“神器”加持,开启算力芯片新范式

不同于目前市场上的其它数据中心处理器,第四代至强家族不仅在诸多层面都体现了英特尔的创新DNA,也充分体现了英特尔工作负载至上的策略,尤其是具备七大加速神器,在企业应用中,将目标工作负载的平均每瓦性能提升了近3倍。

据悉,第四代英特尔至强可扩展处理器兼备七大加速神器,包括AMX、IAA、DLB、DSA、QAT、vRAN Boost等英特尔加速引擎,是目前拥有最多内置加速器的英特尔处理器。

谈及为何在CPU内部增加多个加速器,英特尔技术专家解释说,随着企业对计算的需求不断增加,尽可能提高能效变得至关重要。相比于增加CPU内核,内置加速器对于提高工作负载的性能是一种更为高效的方式。

具体来看,通过内置AMX(高级矩阵扩展)加速器,可为AI实时推理和训练工作负载提供显著的性能提升,最高可提升10倍的性能。DLB(动态负载均衡器)可显著提升网络工作负载的系统级处理性能,在相同吞吐量下能够降低96%的延迟。集成的DSA(数据流加速器)可让数据密集型工作负载操作性能提升1.7倍,借助IAA(存内分析加速器)可让数据分析工作负载优化内存占用和吞吐量提升3倍。集成vRAN Boost加速功能,与上一代相比,能够在不增加功耗的情况下提供两倍容量,并额外节省20%的能耗,满足关键的性能、扩展和能效要求。

工作负载至上,每瓦性能提升近3倍

据悉,自2017年英特尔推出了第一款至强可扩展处理器以来,已向全球客户交付了超过8500万颗至强可扩展处理器,支持着全世界的数据中心。第四代英特尔至强可扩展处理器推出以来,已在多个行业、多个客户中得到应用,截至目前,已有超过400款不同设计完成开发,200款已经出货,包括前十大云服务提供商也将在今年部署基于该款产品的云实例。

在这些应用中具体表现如何?英特尔技术专家介绍了第四代英特尔至强可扩展处理器在不同行业应用中的具体性能表现,以及如何帮助客户实现成本、能效方面的显著提升。

AMX是用于人工智能应用的加速引擎,据英特尔技术专家介绍,AMX是创新性的第一次在CPU平台上应用的矩阵运算单元,在此之前,采用的是CPU上的向量计算单元。AMX矩阵计算单元可以支持两种数据精度,8位整型数据和16位浮点数据,这对于要求不同数据精度的AI应用非常有帮助。

据悉,在人工智能应用中,场景训练和基于模型的判断是两类主要应用,它们对数据精度要求不同,在AMX加速引擎下,这些AI应用场景的性能可以得到大大提升,具体应用来看,在某电商平台的用户地址添加等个性化设置以及搜索框个性推荐案例中,采用AMX加持的第四代英特尔至强可扩展处理器实现的性能比上代产品提升了2.48-3倍,用户体验得到大大提升。

另一个加速神器IAA(In-Memory Analytics Accelerator)是针对大数据、内存分析类型的数据库等应用场景。例如,针对大数据分析中的典型场景数据压缩应用,交由IAA加速器来完成,可以释放更多CPU的计算资源,同时还可以发挥整个计算的最大的性能,提升能效比。

目前,第四代英特尔至强处理器已经在国内多家头部数据库供应商中部署应用。在一个基于Clickhouse的IAA应用案例中,从实际测数据来看,使用IAA-Deflate算法之后,可以提升42%的压缩比。“这对很多客户来说就很重要了,因为可以节省磁盘成本、带宽成本,还可以节省内存、带宽的使用。”英特尔技术专家表示。

DSA(Data Streaming Accelerator)加速器主要加速针对内存的搬移和传输的操作。可以说,对内存有需求的应用,DSA都是一个理想的加速器。例如,大型赛事直播转播应用中,大量影像数据需要传输到数据中心处理。在没有DSA之前,这个工作是由CPU来做的,现在有了DSA加速引擎,交由DSA处理,实际测试数据显示,在相同的网络带宽下,用CPU时,需要6个核心,如果用DSA去做,只需要2个核心,可以节省66%的CPU资源

另外,在数据中心业务当中,数据服务类应用范围很广,包括内存数据库、关系型数据库、大数据分析应用、数据仓库的应用,还有一些企业的关键业务系统,ERP、SCM和CRM系统等应用,它们的性能都非常依赖底层硬件平台的支撑。除了AMX、IAA和DSA这些加速器之外,第四代至强可扩展处理器还可以带来很多其他方面的性能提升,对于这些数据服务类应用,优势显著。

例如,在第四代至强可扩展处理器上,支持内存从DDR4升级到DDR5,得到了50%的内存带宽的提升,对于很多数据服务类应用都有非常好的提升效果。从PCIe 4.0提升到PCIe 5.0,带来了两倍的IO带宽提升。除了CPU核数提升之外,第四代至强可扩展处理器在CPU单核性能上也做了优化。

根据多种应用的平均值,我们总体上带来了15%的单核性能的提升。除此之外,利用DSA加速器,在处理大的数据报文的时候,可以达到1.6倍的性能提升以及37%的延时降低。在应用QAT加速时,对于数据压缩的应用,可以达到2倍的压缩吞吐提升。同时把计算资源交给加速器,可以带来95%核占用率的降低。”英特尔技术专家强调。

谈及未来服务器CPU的发展,庄秉翰指出,算力市场需求越来越多,我们看到很多新的应用。对于未来CPU的发展目标,除了对传统的虚机性能进一步提升之外,也会对云原生、微服务等新应用场景,开发有针对性的新型CPU

庄秉翰透露,Sapphire Rapids、Emerald Rapids、Granite Rapids以及能效核产品Sierra Forest,包括基于台积电的3nm显卡产品都在按计划稳步进行中,“英特尔正在以稳健的执行力,加注产品技术创新,期待将这些产品更快推广到市场。”

责编: 张轶群
来源:爱集微 #英特尔# #第四代至强#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...