抽丝剥茧“邃思2.0”，看燧原科技如何打造全新产品矩阵与智算集群？

作者：杜莎 2021-07-14

来源：爱集微 #燧原科技#

集微网消息，人工智能的发展与突破，离不开大数据、算法和算力三大要素的持续推动与赋能。上海燧原科技有限公司（以下简称：燧原科技）是一家专注于打造人工智能领域云端芯片与加速卡、智算集群等产品的供应商，其产品应用在数据中心，为云端的整个人工智能应用提供算力。

面对市场对AI芯片大算力的需求，在2021年世界人工智能大会上，燧原科技发布了第二代人工智能训练产品——“邃思2.0”芯片，以及基于邃思2.0的“云燧T20”训练加速卡和“云燧T21”训练OAM模组，全面升级的“驭算TopsRider”软件平台以及全新的“云燧集群”，由此成为国内首家发布第二代人工智能训练产品组合的公司。与第一代训练产品相比，“邃思2.0”芯片在计算能力、存储和带宽、互联能力、软件创新四方面都有巨大的提升。

图片左为：燧原科技产品总监陈超

世界人工智能大会期间，集微网采访到燧原科技产品总监陈超，深度解读了有关“邃思2.0”芯片的四大核心升级，从中可以清晰看出燧原科技打造全新产品矩阵与智算集群的脉络和理念。

TF32高效支持人工智能矩阵计算

单单从产品参数上看出，邃思2.0单精度FP32峰值算力达到40TFLOPS，单精度张量TF32峰值算力达到160TFLOPS，算力均为国内第一。

如何更深层次地理解这一算力数值？陈超指出，“目前在整个人工智能算法中，超过95%的模型训练是通过传统的单精度浮点算力FP32来实现。2020年，友商的新一代旗舰产品重点推出单精度张量算力TF32，专门针对深度学习中主要采用的矩阵和卷积等张量计算类型。”

大家或许有这样疑问：难道FP32不可以支持矩阵类计算吗？对此，陈超表示，FP32可以支持矩阵类张量计算，但是不够高效，由此TF32可谓是应运而生，通过TF32数据类型针对张量计算进行加速，结合FP32数据类型进行矢量和标量运算，成为最高效的深度学习运算方式，目前该模式已经是友商新一代旗舰产品的默认设置。

为此，邃思2.0进行了大规模的架构升级，新一代全自研的GCU-CARA全域计算架构，针对人工智能计算的特性进行深度优化，夯实了支持异构计算的基础，同时，支持全面的计算精度，涵盖从FP32、TF32、FP16、BF16到INT8，并成为中国首款支持单精度张量TF32数据精度的人工智能芯片。

HBM2E存储方案带来海量吞吐

计算性能好只是训练芯片的一个维度，在人工智能中，芯片还需要存储大量数据。针对市场对大存储容量的需求，邃思2.0基于4颗业界最先进的存储颗粒HBM2E，设计了与高性能算力相匹配的片上存储方案，单芯片可以支持最高64GB内存，这也是中国第一个支持世界最先进存储HBM2E和单芯片64 GB内存的产品。

为何需要这么大的容量？陈超解释到，如今，人工智能中有很多大模型，甚至一些超大模型已经超过万亿参数，而所有这些参数，包括运行中的计算结果，必须放在芯片的存储里，由此引发了相关应用对于大存储直接而迫切的需求，这也是整个人工智能应用发展的重要趋势之一。

另外，为保证数据能高速地从存储传输到计算引擎，同时也能从计算引擎回到存储，芯片就需要整个带宽通路足够宽，而邃思2.0最高可以提供1.8 TB/s带宽，充分满足计算引擎访存的高需求，解决存储墙的问题。

GCU-LARE专有通路实现集群间规模通信

毫无疑问，从计算性能、存储性能来看，邃思2.0已经是业界优秀的训练芯片之一。那么从单芯片层面上升到智算集群，这一优势是否能够延续呢？毕竟，面对需要支持万亿参数这种超大规模的网络模型，单机单卡、单机多卡甚至多机多卡都无法满足模型训练的时效性要求，而需要千卡以上规模的集群来实现运算加速。

可以说，每一颗芯片、每一张加速卡的性能确实在单一产品维度达到了峰值，但在现实的场景和模型中，衡量产品表现的指标还需要考虑扩展到算力集群时是否还能保持优异的表现。对此，陈超表示：“这既取决于单芯片的能力，也取决于多芯片之间的通路是否够宽，因为数据要在多个芯片里进行互通、共享、同步。”

为此，燧原科技打造了最新的6路GCU-LARE专有通路，也称为GCU-LARE全域互联技术，这是燧原专为人工智能训练集群研发的互联技术，提供双向300GB/s互联带宽，支持数千张云燧加速卡互联，可以实现优异的线性加速比。正如陈超所言，GCU-LARE提供芯片与芯片、卡与卡、服务器与服务器之间的数据通信，配合上层的分布式训练框架，可以高效应对整个集群的高并发高流量数据通信，通过这种方式，可以在集群规模上提供领先的加速比，有效缩短模型的收敛时间，加速应用落地。

全新软件提炼硬件极致性能，赋能客户创新

芯片在落地量产的过程中，都会面临这一“灵魂”问题：如何将理论上酷炫的硬件峰值性能最大化表现出来？这就离不开软件。更为关键的是，软件是硬件供应商与客户之间长期的纽带与接口。

众所周知，客户对产品的感知并不完全来自于硬件，更多来自于软件及其生态。软件是客户使用产品的交互接口。打个比方说，如果硬件能够提供100分，而软件仅能达到10分，那么在客户看来，这就只是个10分的产品。

人工智能领域专用的处理器，也即DSA架构可以提供高效的性能表现，但同时，能否提供客户友好的软件栈平台，能否协助客户将基于原有平台开发的应用快速、低成本地迁移到燧原的产品，能否提供可持续升级能力和后向兼容的能力，是燧原在开发中高度强调的产品要求。

“得益于燧原科技第一代产品，在其落地的过程中，我们与客户有非常多的基于业务层面的合作。在这些合作中，我们深刻地理解到，客户真正的痛点和需求是什么。基于这些需求，我们如何通过软硬件结合去解决，而不是仅仅停留在自己所认为的亮点。最终，我们将学习的所有经验都提炼到邃思2.0的硬件和软件设计中，这是我们最大的护城河。”陈超强调道。

总结来说，软件是生产力工具。一方面，软件的目标是要极致地榨干整个硬件的极限性能，同时要能为用户提供最佳的使用方式，并且能够涵盖到整个人工智能广泛模型的通用支持。

尤为值得一提的是，燧原科技基于自主知识产权的计算及编程平台“驭算TopsRider”，通过软硬件协同架构设计，可以充分发挥邃思2.0的性能；同时，基于算子泛化技术及图优化策略，能支持主流深度学习框架下的各类模型训练；另外，开放升级的编程模型和可扩展的算子接口，能为客户模型的自定义开发与优化提供开放的开发能力。

（校对/落日）