单卡支持大模型首个高稀疏率AI计算卡S100在浪潮内测中表现优异

作者：爱集微 2022-07-05

来源：墨芯 #人工智能# #墨芯#

6.1w

2022年7月5日，墨芯人工智能首次发布SparseOne®️ S100在浪潮服务器中的测试数据， S100是全球首个高稀疏率AI计算卡，运行多个AI主流模型，性能表现为国际大厂主流AI推理卡的6倍。更重要的是，它不仅性能优秀，能效比、功耗和精度同样能给业界带来惊喜，并具有良好的通用性。

墨芯人工智能是稀疏化计算的全球引领者，以稀疏化算法为核心，打造云端和终端AI计算加速方案，可广泛应用于数据中心、互联网、运营商、生命科学等场景，推动稀疏化计算生态建设。浪潮是墨芯人工智能的战略投资者和生态合作伙伴。

S100单卡力挑T5-8B

可支持千亿级别大模型

该报告在以下测试环境中进行，测试结果仅对被测系统当时的状态有效。

测试环境

报告中的实测数据显示，与国际大厂主流AI推理卡对比，S100运行多个AI主流模型如T5、BERT和ResNet-50，性能为后者6倍。

值得注意的是，这是墨芯首次披露S100运行能够实现单卡推理大模型，突破单卡难以满足高算力需求的瓶颈，有效解决业界对大模型，普遍采取多机多卡分布式的方式，完成推理所带来的时间长、功耗高、成本高等问题。

近年来新兴的NLP模型——T5，曾被称为“全新NLP SOTA预训练模型”，以其高参数量，让许多计算卡“望而却步”。但在本次测试中，S100在单机单卡环境下就能运行T5-8B模型，算力高达141.8 SPS。

除了高算力的优势，相较于当前国际大厂主流推理卡单卡只能支持百亿参数级别的模型，墨芯S100可以支持千亿参数级别的模型。

S100不仅运行大模型性能测试表现优秀，运行其他经典AI模型，如自然语言处理领军模型BERT、图像分类识别模型ResNet-50的性能数据也很亮眼，为国际大厂主流AI推理卡的6倍以上。

S100运行BERT模型，SST-2数据集，在单机单卡环境下，不影响精度的前提下，性能达12176 SPS。

S100运行ResNet-50模型，ImageNet数据集，在单机单卡环境下，不影响精度的前提下，性能达28260 FPS。

在主频800 MHz的测试环境中，S100运行ResNet-50模型时算力达33197 FPS。浪潮内测主频为700 MHz。

所有测试均是在实际环境中，意味着S100计算卡能够直接投入实际场景的使用，“实战能力”超群，拥有极高的应用价值。这意味着，S100不仅能够提供高性能，还能同时满足高能效比、低功耗和高精度，为企业大幅降低部署成本和运维成本。

稀疏化计算:不止于快

S100超高性能的秘密武器是稀疏化计算。简单来说，稀疏化的原理是指，在AI矩阵运算中，将无效元素剔除，极大加快计算速度，降低计算成本。它在需要海量数据处理的AI加速计算中优势尤为突出，能在提供高性能的同时，为企业提供高能效比、高精度和低功耗，为企业降本增效。

2021年8月，谷歌人工智能主管Jeff Dean在一次TED演讲中表示，稀疏化是下一代AI架构中最重要的趋势之一。他认为当前模型密集且效率低下，而谷歌的研发方向会把模型变得稀疏而高效。

如果说谷歌现在是稀疏化算法的推动者、稀疏化架构的倡导者，那么墨芯已是稀疏化产业实践者。早在2018年，墨芯即致力于稀疏计算的4产业化进程，采用软硬协同的设计创新方法，将稀疏化算法升级到计算层面，实现高性能和高能效。

现在，根据潜在客户的反馈，稀疏化计算成为极富有竞争力的AI计算解决方案，因为它既能够突破算力极限，又具有良好的通用灵活性，企业能够能以极低的迁移成本，一键式地将稀疏计算功能添加到现有的计算设施中。

因此，墨芯的稀疏化计算解决方案具有广阔的生态前景。墨芯人工智能创始人兼CEO王维表示，墨芯将构建涵盖软件、硬件、应用的AI计算平台，与研究人员、开发者、软件开发商等合作伙伴一起，为各行各业用户提供高性能AI计算服务，共同构筑场景丰富、生机勃勃的稀疏化生态。

责编：爱集微

来源：墨芯 #人工智能# #墨芯#

THE END

爱集微

微信：

邮箱：laoyaoba@gmail.com

13.4w文章总数

12012.5w总浏览量

单卡支持大模型 首个高稀疏率AI计算卡S100在浪潮内测中表现优异