清华大学章明星:大模型推理和优化部署技术开源实现 | 2025全球工程前沿

来源:信息与电子工程前沿FITEE #大模型# #LLM# #推理优化#
1582

随着大语言模型(large language model,LLM)和多模态基础模型在自然语言处理、计算机视觉、代码生成等领域的广泛应用,其推理效率与部署可扩展性正成为制约产业化落地的关键瓶颈。为应对这一挑战,开源社区与产业界正加速推进大模型在推理加速、内存压缩、异构硬件适配、分布式部署等方面的优化技术研究,并致力于提供可复用、可扩展的开源实现。

该工程前沿聚焦于以下几个核心方向:① 以张量并行与流水线并行为代表的并行策略实现,用于支持百亿级至万亿级模型的分布式部署;② 模型量化、剪枝与蒸馏等轻量化技术,以减少推理时的计算与存储开销;③ 适配多样化硬件架构(如 GPU、TPU、ASIC、FPGA 等)的推理编译优化;④ 低延迟推理与弹性服务调度机制,以支撑在线服务与边缘计算场景;⑤ 标准化的开源工具链构建,如 vLLM、SGLang、llama.cpp、TensorRT-LLM、LMDeploy、KTransformers 等,推动行业生态协同发展。

未来趋势将进一步体现为“异构融合、高效弹性、自治部署、全链条开源”的综合能力建设,推动大模型由“能用”向“高效可用”演进,从而支持智能化应用在千行百业的规模化部署。

该前沿主题2019—2024年核心专利公开总量、被引情况和平均公开时间见表3.15,逐年公开量见表3.16。

内容取自《全球工程前沿2025》

章明星,清华大学副教授,开源项目 Mooncake 和 KTransforemers 发起人。主要从事内存系统研究,在 OSDI、SOSP、ASPLOS、HPCA、EuroSys 等国际顶级会议或期刊上发表论文30余篇,其中包括 FAST 最佳论文、SIGSOFT 杰出论文和国内高校首篇 OSDI。曾获奥林帕斯百万大奖、ChinaSys 新星和优博奖,IEEE TCSC 优博,入选中国科协青年人才托举计划,担任科技部重点研发项目课题负责人。曾任深信服首席算法技术专家,创新研究院院长,相关孵化产品应用于数万家客户。

关于本刊

ENGINEERING Information Technology & Electronic Engineering(简称EITEE,中文名《工程·信息与电子工程(英文)》,ISSN 3069-8928,CN 33-1439/TP)是中国工程院院刊信息与电子工程领域子刊,SCI-E、EI收录。前身为2010年创办的《浙江大学学报英文版C辑:计算机与电子》,2015年更名为Frontiers of Information Technology & Electronic Engineering,2026年改为现名。覆盖计算机、信息与通信、控制、电子、光仪等领域。实行双向匿名国际同行评审制,初次转达意见一般在2~3个月内。

荣获中国科协等七部委推出的中国科技期刊卓越行动计划项目资助(一期和二期,梯队期刊)。入选信息通信领域(中国通信学会组织评选)和计算领域(中国计算机学会组织评选)高质量科技期刊分级目录,均被列为最高的T1级别;入选第七版中国计算机学会推荐国际学术会议和期刊目录(交叉/综合/新兴)和中国人工智能学会推荐国际学术会议和国际/国内期刊目录(人工智能基础与综合领域,B类国际期刊)。

责编: 集小微
来源:信息与电子工程前沿FITEE #大模型# #LLM# #推理优化#
THE END
关闭
加载

PDF 加载中...