11月29日-12月1日,备受瞩目的“2024中国信息通信大会暨中国通信学会学术年会”在四川成都顺利举行。此届大会以“科技领航创新,产业共筑未来”为主题,聚集了来自“政产学研用”各方代表,集中展示算力及网络通信领域的最新研究成果。在“算力网络算网一体创新发展论坛”上,壁仞科技携手中国移动、中兴通讯等产业合作伙伴共同发布了通用异构混合并行训练系统——“芯合”异构混合并行训练系统1.0。该系统可解决大模型异构算力孤岛难题,实现同一训练任务在异构算力集群的任务拆解和协同训练,对推动我国智算产业生态融通发展,构建开放协同的新型智算基础设施具有积极意义。
壁仞科技代表出席智算“芯合”异构混训系统发布仪式
当前,我国智算产业形成了软硬件绑定的竖井式生态,不同厂商、不同架构的智能算力之间无法兼容互通,限制了异构智能算力的有效整合和充分利用。大模型训练需要千卡集群甚至万卡集群资源,目前国产芯片厂家百花齐放,移动新型智算中心已经落地使用的算力资源类型多样,形成了一些算力孤岛。但由于目前Megatron等主流的分布式训练框架仅支持同构算力集群,导致无论是不同厂商的智算芯片之间,亦或是同一厂商不同代际芯片之间都无法形成“合力”,极大地限制了智算中心对现有异构算力资源使用的充分性和调度的灵活性,因此亟需面向异构算力混合训练需求进行技术研究。为屏蔽异构硬件差异、融通智算竖井生态,中国移动充分发挥移动信息现代产业链“链长”职责,以异构混训技术为攻关要点,率先提出通用异构混合训练技术,并开展“芯合”异构混合并行训练系统1.0研发,开辟以智算软件带动智算产业融通发展的全新路径。本次壁仞科技联合中国移动发布的“芯合”异构混合并行训练系统1.0依托基于 Inhomogeneous Task Distribution (ITD)算法的3D并行非均匀切分和基于GPUDirect RDMA(GDR)的异构芯片高速通信两大关键技术提供通用混合训练能力。其中,基于ITD算法的3D并行非均匀切分可通过通用混合训练框架实现异构数据并行、异构流水线并行,实现数据微批次大小、数量、流水线并行度等参数在异构算力上的自适应调整;基于GDR的异构芯片高速通信可在不改变芯片原有通信接口基础上,基于GDR芯片高速互联技术,通过定义数据传输架构、流程及接口标准约束,屏蔽底层硬件差异,实现顶层训练任务在异构算力集群上分布式通信的无感拆解。当前系统已实现百亿参数大模型在壁仞科技、英伟达等多家智算芯片上的交叉混合训练,异构混训效率达95%以上,未来将在提升智能算力资源利用率及促进国产算力发展等方面发挥重要作用。此前壁仞科技的壁砺™系列通用GPU算力产品已经在中国移动智算中心(呼和浩特)成功上线运营,为该智算中心提供强大算力。该项目成功上线运营,标志着双方在智能计算领域的深度合作迈出了坚实的步伐。国产GPU加快落地的过程中正在在逐步扩大算力规模,为破解这一过程中的“大模型算力孤岛”难题,壁仞科技一直在积极开展异构GPU协同训练技术攻关,已发布自主原创的异构GPU协同训练方案HGCT,业界首次支持3种及以上异构GPU混合训练同一个大模型,用一套统一方案支持多种不同厂商、不同型号的GPU,而且一行代码适配多种框架。此次壁仞科技携手中国移动强强联合,发挥双方在底层通信库和上层并行拆分策略的优势,联合打造“芯合”异构混合并行训练系统1.0,有利于帮助中国移动充分利用国产算力,加快国产GPU迁移落地,形成开放的国产智算生态。大会同期举办了中国通信学会算力网络委员会闭门会议及委员聘用仪式,壁仞科技AI软件首席架构师丁云帆被评选为中国通信学会第一届算力网络委员会委员,其将发挥在大规模智算集群、AI平台、异构训练系统、大模型分布式并行加速等方面的经验和能力,为中国算力网络的发展贡献力量。未来,壁仞将继续秉承开放与融合的理念,与中国移动等产业链的合作伙伴携手并进,共同推进智算异构混训系统的创新与建设,支撑更多业务场景、支持更大参数规模模型、支持更大规模异构集群、融通更多异构芯片,真正打造以基础软件栈引领的全新智算生态,为我国算力强国战略落地提供坚实的支撑。