EN
  • 收藏

  • 点赞

  • 评论

  • 微信扫一扫分享

【2022-2023专题】GPU国产替代逆流而上 盘点九个值得关注的国产GPU产品

来源:爱集微

#GPU#

#年度盘点#

#2022#

01-08 07:00

【编者按】2022年,半导体行业依然在挑战中前行。后疫情时代、行业下行、地缘政治等因素仍深刻地影响着全球半导体产业链及生态。2023年全球半导体行业如何发展?新的挑战又会从何而来?为了厘清这些问题,集微网特推出【2022-2023专题】,围绕热门技术和产业,就产业链发展态势、热点话题及未来展望做一详实的总结及梳理,旨为在行业中奋进的上下游企业提供可以参考的镜鉴。

集微网报道,美国GPU禁令引发的风云之变让国产GPU被推到了聚光灯下。

“数字经济的崛起与繁荣,离不开算力的强大支撑,计算芯片已然成为全球科技竞争的焦点所在。”中国工程院院士倪光南曾说。伴随国内政策、资本、人才以及应用的红利,一大批国内GPU企业已然崭露头角。但GPU作为复杂的高端芯片,不止要面临国外巨头的高壁垒,还要在硬件、生态、应用层面做大量的研发和优化,国产化之路注定如西西弗斯推巨石一般的艰苦卓绝。

集微网本文将盘点九款最值得关注的国产GPU产品,一起来看看国产GPU发展水平如何。

1、凌久微,GP201

凌久微电子今年年中流片成功的产品GP201是一款采用统一渲染架构的自主高性能GPU,实现亿门级超大规模集成电路设计,可满足显控、科学计算及人工智能等应用需求。据悉,凌久微电子主要从事GPU/SOC芯片产品设计研发、配套软件生态构建等,其自研的图形处理器(GPU)已经广泛应用于商用计算机、国家信息安全和高可靠性电子设备等领域。

RPP-R8芯片的技术指标主要包括:

主频1GHz,单精度浮点1TFlops,采用PCIE GEN3 x16接口,最大支持32GB DDR4/LPDDR4显存,支持4路4K高清显示,支持DVI/HDMI/VGA/DP/eDP接口,支持OpenGL4.0、OpenGLES3.2、OpenCL3.0,支持H.264、H.265、MPEG2/MPEG4、VC-1、VP8等格式解码,整体功耗小于30W。

2、壁仞科技,BR100

今年9月,壁仞科技首次展出了BR100系列通用GPU芯片,算力创下全球纪录。壁仞科技首款通用GPU芯片BR100,基于壁仞科技原创芯片架构研发,采用的是7nm制程工艺,可容纳770亿颗晶体管,16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别,创下全球GPU芯片算力纪录。BR100芯片在国内率先采用Chiplet技术,新一代主机接口PCIe 5.0,支持CXL互连协议,而BR100芯片也让中国的通用GPU芯片迈入“每秒千万亿次计算”新时代,最为重要的是,这是第一次全球通用GPU算力纪录由中国企业制造。同时展示的壁砺100 OAM模组,搭载的正是BR100芯片。

3、沐曦,7nm GPU已流片

沐曦(MetaX)的国产高性能AI推理GPU芯片设计研发。沐曦联合创始人、CTO兼首席软件架构师杨建博士日前接受了媒体采访,表示公司7nm GPU已经流片,不过支持游戏功能的满血GPU还要等到2025年。据悉,该产品主要用于AI推理场景,可在人工智能、自动驾驶、工业和制造自动化、智慧城市、自然语言处理、边缘计算等领域应用,这一颗芯片预计很快量产。沐曦第二款用于科学计算、数据中心弹性计算、AI训练等的旗舰GPU芯片也进入研发收尾阶段,计划于2024年全面量产。

据悉,沐曦创始人陈维良曾任AMD GPU设计高级总监、AMD全球GPU SOC设计总负责人、AMD全球通用GPUMI产品线(高性能计算、云计算)设计总负责人。公司GPU设计研发团队参与过AMD从图像到高性能计算应用GPU的架构设计和量产。

4、芯动力,RPP-R8

芯动力也将持续专注于国产化GP-GPU芯片的设计与开发,致力于将基于自主创新RPP架构的芯片产品广泛应用于各行业并行计算领域的需求场景中。目前以RPP技术研发的第一代RPP-R8芯片已经成功流片,基于全新自研架构,RPP-R8是一款为并行计算设计的高端通用异构芯片。RPP-R8芯片专注于并行计算领域。用基于CUDA的高级语言进行应用代码编程,通过自有的指令集和开发工具进行深度优化性能,在高性能计算领域内RPP-R8可以得到最广泛使用的编程语言的支持。与GP-GPU相比,RPP-R8具有更高的计算密度。利用架构的优越性,可以达到更高的计算能力,从而降低服务器的成本,达到更低的功耗。非常适合于高密度数据量的计算应用场景。

RPP-R8芯片技术指标:

支持FP16/FP32/INT8等精度算力,算力达到32TOPS@INT8,16TFLOPs@FP16;

支持PCIe Gen3,PCIe带宽双向32GB/s;

芯片面积100mm2,计算单元数量1024个,核心频率1GHz;

支持主流深度学习网络框架和主流深度神经网络模型,支持任何英伟达支持的深度学习网络模型,包含CNN,Transformer等;剪枝、量化后模型压缩比与国际先进水平相当,准确率下降1%以内,支持32路数视频解码。编程语言:CUDA语言兼容,推理平台:Tensor RT 兼容。

值得一提的是,这款产品已经可以对标英伟达主流边缘服务器JetsonXavier芯片产品。

5、智绘微,IDM9系列

智绘微电子IDM9系列产品均可支持OpenGL、OpenGL ES、EGL、Vulkan 等图形标准和OpenCL计算标准。

公司首款GPU芯片IDM919像素填充率达到8GP/s,纹理填充率达到16GT/s,单浮点运算达到 256GFLOPS,第二款产品IDM929在微内核架构的优势下,像素填充率性能提升2倍,纹理填充率性能提升是4倍,单浮点运算性能提升8倍。据悉,IDM919采用14nm工艺,支持1080P高清显示,支持1路HDMI、VGA或DVI接口,全面支持飞腾、龙芯CPU、麒麟以及统信等国产操作系统,广泛应用于桌面办公、工业控制系统、显示控制系统、地理信息系统、高性能计算等领域。

此外,智绘微电子IDM9系列第二款产品流片在即,计划于2023年面世。第二款产品采用14nm工艺,支持4K超高清显示,支持4路独立显示输出,支持HDMI、VGA和DVI接口,支持H264、MPEG2、MPEG4、VC-1、DivX和VP6等格式硬件解码,可以适配X86、国产基于ARM架构飞腾和基于MIPS架构龙芯CPU,同时全面支持麒麟、统信等国产操作系统,广泛应用于桌面办公、图形工作站、工业控制系统、指挥控制系统、显示控制系统、地理信息系统及高性能计算等领域。总体性能是第一款产品的8倍之多。

6、摩尔线程,GPU芯片“春晓”

摩尔线程正式发布第二颗多功能GPU芯片“春晓”,集成220亿个晶体管,内置MUSA架构通用计算核心以及张量计算核心,可以支持FP32、FP16和INT8等计算精度。相较于之前发布的“苏堤”芯片,“春晓”内置的四大计算引擎全面升级,带来了显著的性能提升。春晓GPU将致力于满足高端游戏玩家、以及更高图形和计算能力的需求,以全面覆盖高中低端应用。

“春晓”的产品亮点主要包括:

图形渲染能力方面平均提升3倍;

编码能力提升4倍,解码能力提升2倍;

AI计算加速平均提升4倍,物理仿真计算性能提升2.5倍。同时,引入了新技术支持窄带高清,节约带宽30%以上。

7、天数智芯,智铠100

国内领先的通用GPU企业天数智芯于今年5月成功点亮智铠100,该产品凭借极高的计算性能在众多同类产品中脱颖而出、受人期待,终于在12月正式发布。相较于市场上现有主流产品,智铠100将提供2-3倍的实际使用性能。此外,智铠100延续天垓100开发易迁移的特点,全面支持推理及训练一体化方案,能够在不额外增加购置成本的情况下完成增量训练工作,有效减少用户的成本支出。智铠100应用范围广泛,适用于智慧城市、智慧港口、智慧交通、智能制造、电力、智能语音、医疗、教育、智慧金融等众多场景,为各行业提供坚实算力保障。天数智芯总裁盖鲁江表示,“智铠100是天数智芯正式向市场推出的第二款产品,标志着天数智芯成为国内唯一拥有云边协同、训推组合的完整通用算力系统全方案提供商。”

智铠100的产品技术指标包括:

智铠100芯片支持FP32、FP16、INT8等多精度混合计算,实现了指令集增强、算力密度提升、计算存储再平衡,支持多种视频规格解码。

智铠100产品卡,可提供最高384TOPS@int8、96TFlops@FP16、24TFlops@FP32的峰值算力,800GB/s的理论峰值带宽以及128路并发的多种视频规格解码能力。

基于天数智芯第二代通用GPU架构,智铠100多达800余条通用指令集,支持国内外主流深度学习开发框架,拥有丰富编程接口拓展和高性能函数库,可以灵活支持各种算法模型,便于客户自定义开发。

8、象帝先,天钧一号

今年9月,象帝先发布拥有完全自主知识产权的国产GPU——天钧一号。据了解,这款GPU的综合性能已达到国际先进、国内领先水平,尤其是极致的图形渲染能力大幅领先国内同类产品,有效填补国内市场空白。近日,天钧一号GPU与飞桨完成III级兼容性测试。测试结果显示,双方兼容性表现良好,整体运行稳定。

天钧一号的技术指标主要包括:

采用 12 nm工艺,包含最多 2048 个高效 Compute Core 阵列,可提供高达 4T FLOPS 的 FP32 算力、16 TOPS 的 AI 算力和超过 128G Pixels/s 的像素填充率,高达 16GB 显存和 256GB/s 带宽;

产品支持国密系列算法和 GPU 虚拟化,筑牢硬件安全基石;

支持OpenGL、OpenGLES、OpenCL、Vulkan、DirectX等主流API,支持PCIE 4.0x16高速接口;

不仅支持H264、H265、MEPG2/4、AV1等国际视频编解码标准,还率先支持我国自主的AVS/AVS+/AVS2视频编解码标准;

同时还支持HDMI、DP等多种高清接口及多屏多图层4K超高清显示,为数字办公、视频渲染、CAD、CAE、GIS、3D游戏、AR/VR、智能制造、证券金融、AI训练推理等场景提供了高性能的产品选项。

在GFXBench 5.0的MANHATTAN 3.0测试中,基于盘古架构的天钧一号GPU在测试成绩上已经超越1660Ti、RX590、RX580一众国外GPU产品。

9、砺算科技,G100

砺算科技的自研架构支持扩展到16384个计算核心,将有与英伟达Ada Lovelace系列的旗舰产品RTX 4090竞争的机会。砺算科技的第一代高性能GPU产品G100采用6nm工艺生产,性能对标英伟达在国内销量最大、占比达90%的主流产品(10-20TFLOPS)。具体看来,砺算科技的自研架构支持扩展到16384个盘算焦点,而英伟达今年9月GTC官宣新一代RTX 4090,也是内置了16384个CUDA Cores。这也意味着,未来砺算科技的产物将有与英伟达AdaLovelace系列的旗舰产物RTX 4090竞争的时机。

G100的产品亮点主要包括:差异于购置第三方IP,砺算第一代高性能GPU产物,不仅100%支持微软的DirectX尺度,能够没有任何障碍地应用到PC上、笼罩量级最大的市场,也由于完整手艺团队以及自研架构带来的高性能(笼罩海内95%市场)、定制GPU的独家能力,具备了现实的竞争优势和耐久的生长潜力。

结语

国内GPU发展或许并不会因A800的出现而变慢,因为FDPR那把大剑始终悬在头顶,还是需要未雨绸缪的。业内人士对集微网提到,美国层出不穷的禁令或断供举措主要是为了阻挡中国的技术发展速度,但A800的推出也不会延缓国产GPU的替代之路,因为如果停下来就会落后。

集微咨询认为,国产大算力产品的发展与英伟达是否推出替代产品关系不太大。面对禁令的影响,国内客户即便短期会用A800来补位,但长远计划来看,也必须要将国产替代提上日程,对于国产GPU的大门始终是敞开的。

(校对/张杰)

责编: 李梅

王云朗

作者

微信:

邮箱:

作者简介

读了这篇文章的人还读了...

关闭
加载

PDF 加载中...