大模型在边缘落地还差些什么？

作者：陈炳欣 08-07 09:55

来源：爱集微 #人工智能# #大模型# #算力集群# #边缘智能# #边缘AI#

5.9w

随着大模型开启行业赋能进程，其在边缘/侧端的大规模部署便成为进一步发展的重中之重。然而，在边缘/侧端部署固然更加有利于大模型实现即时响应和隐私保护，同时也将面临算力碎片化、能效问题、落地场景等方面的挑战。对从业企业来说，这既是难点也是机遇。

行业应用需求带动，大模型向边缘侧发展

当前，我国大模型产业正迎来飞速发展。统计显示，截至3月底国内发布的大模型数量已经达到117个。不过在发展过程中，与美国注重原创突破不同，中国的大模型企业更加强调应用落地。360集团创始人兼董事长周鸿祎在此前的演讲中就表示，卷模型、卷算力、卷数据，将模型向着万亿参数发展的并非唯一选择。人工智能大模型有着更多元化的发展路径。面壁智能联合创始人兼CEO 李大海也强调行业模型的重要性，现在已经成为发展的重要趋势之一。

想要更加有效地赋能千行百业，大模型以及相关算力就不能只在云端部署，边缘与端侧模型拥有云端所不具备的比较优势。首先是端侧模型具有更强的可靠性。模型部署在终端可以实时、连续地与环境进行互动，云端模型却很难保持这种连续性。其次是端侧模型能够更好地保证用户隐私。这个问题已经引起人们越来越高的重视，未来如果机器人广泛进入家庭，隐私问题将变得更加严重。端侧模型在保障数据隐私方面的优势更加明显。

正是基于这样的认识，目前已有部分边缘计算企业率先围绕边缘AI展开场景实践，成功将边缘AI注入多个领域。比如在智能制造领域，英伟达Jetson边缘计算平台可以将AI推理计算能力带入工业场景，通过使用GPU加速的AI视觉推理，解决流水线上的缺陷检测、柔性制造等问题。英特尔的解决方案也在智能监控、教育教学、智能医疗等领域得到应用，通过对各类边缘设备的管理，助力各边缘智能业务更加灵活、高效、精准。

边缘与端侧模型的发展也带动了边缘AI计算的成长，相关算力、芯片等产业链环节迎来一波规模性发展。爱芯元智创始人、董事长仇肖莘指出，大模型真正大规模落地需要云边端三级紧密结合，边缘侧和端侧结合的关键在于AI计算与感知。仇肖莘认为，智能芯片和多模态大模型已经成为人工智能时代的“黄金组合”，当大模型的应用日益广泛，更经济、更高效、更环保将会成为智能芯片的关键词，而搭载AI处理器的高效推理芯片将是大模型落地更合理的选择，这也是推进普惠AI的关键所在。STL Partners预测，到2030年，全球边缘计算潜在市场规模将增长到4450亿美元，行业复合年增长率高达48%。

多元化算力部署，应对碎片化挑战

不过大模型在边缘/端侧的部署并不可能一蹴而就。由于边缘设备的计算资源限制以及大模型本身对计算资源需求的多样性，在边缘部署首先就会面临来自算力方面的挑战。一方面，模型厂商需要对大模型进行压缩、剪枝、量化等技术处理，以减小模型的大小和计算复杂度，使其适应边缘/端侧设备的性能要求；另一方如何对算力基础设施进行部署也是一个重点。

英特尔中国区网络与边缘事业部首席技术官张宇强调，随着人工智能赋能千行百业，不同应用对算力的需求不同，跨度非常大。高性能要求的需要算力集群承载，算力需求不强的一个或几个设备就能够承载。安谋科技产品总监杨磊也表示，在终端部署这类AI大模型时，仍面临成本、功耗及软件生态等多重挑战。

针对这样的需求趋势，近年来浪潮、联想等算力基础设施供应商都在围绕“端-边-云-网-智”打造算力布局。产品包括智能边缘网关、边缘服务器、工业控制器、嵌入式计算机等硬件设备，满足不同行业的算力需求。在芯片端，CPU+GPU+NPU的集成化成为处理器发展的方向，应对更加复杂的AI算力。高通推出骁龙X Elite集成专用神经处理单元，支持百亿参数级模型。英特尔Meteor Lake处理器，将NPU与处理器内计算引擎的AI功能结合，提升PC运行AI功能的能效等。国产AI芯片方面，爱芯元智亦于日前发布了“爱芯通元AI处理器”，核心算子指令集和数据流微架构采用可编程数据流的微架构，可有效提高能效和算力密度，适用于边缘计算、AI推理领域的发展。

边缘侧能效问题突出，‌轻量化开发是关键

能效也是边缘大模型发展中不得不考虑的一个关键问题。事实上，大模型要想在边缘/端侧有效部署，与云端相较，能效问题更加突出。英特尔公司高级副总裁兼网络与边缘事业部总经理Sachin Katti在接受笔者采访就表示，在讨论算力时，除了优化算力、软件生态等之外，一个关键问题就是功耗，特别是当它在边缘部署的时候。边缘端部署设备能耗可能约为200W；云端部署的能耗可能在1k至2kW，而数据中心的单层机架能耗可能高达100kW。如果将整个数据中心的能耗累加起来，可能会达到50G至100GW的规模。

边缘设备通常具有有限的计算能力和内存，‌而大模型则需要大量的资源来实现高性能的推理。‌因此，‌如何在确保模型准确率和响应速度的同时，‌优化资源利用和降低能耗，‌成为关键问题。针对这一趋势，相关厂商纷纷推进‌轻量化开发框架与加速库，‌如AMD发布的Ryzen AI模型部署引擎、英特尔的OpenVINO推理加速库、‌英伟达的TensorRT高性能推理加速库等，‌结合针对嵌入式与移动终端的轻量化开发框架（‌如PyTorch Mobile、‌TensorFlow Lite、‌Paddle Lite等）‌，可以促进人工智能在移动设备、‌物联网和其他边缘计算场景中的广泛应用。

此外，业界也开始广泛采取‌液冷技术作为一种服务器的降温手段，逐渐被应用于数据中心和大模型部署当中。据了解，现有的液冷技术已经能够为100kW的机群降温，未来有望扩展到300kW。

探寻AI应用，谁是未来“明星场景”？

随着人们越来越强调大模型赋能行业应用，寻找适合的“明星场景”成为决定产业成败的关键问题。目前，AI手机、AI PC与自动驾驶成为大模型最具前景的应用市场。

市场调查机构IDC的最新研究显示，AI手机市场将在2024年达到2.342亿部的出货量，较2023年的5050万台出货量增长363.6%，将占今年整体智能手机市场的19%。2028年，AI手机出货量将在2028年达到9.12亿部，复合年均增长率为78.4%。IDC全球季度手机追踪研究总监Anthony Scarsella表示，成本仍将是AI手机发布时的一个关键抑制因素，因为许多功能强大的芯片和NPU价格不菲，主要在超高端市场中销售。然而，随着时间的推移和竞争的加剧，我们相信，这些组件将进入中端市场和更实惠的机型之中。

AI PC的成熟速度比原先预期的速度更快，有望为全球PC产业带来一次换机潮。根据Canalys的预测，2024-2028年全球AI PC渗透率将从19%提升至71%，出货量将从0.51亿台提升至2.08亿台，年复合增长率达到42.11%。摩根士丹利预测，AI PC今年会占整体PC市场的2%，接下来明年市占增长至16%、2026年达28%、2027年达到48%，到2028年更冲上64% 。

大模型上车仍然进入初期阶段，不过随着智能化理念逐渐深入人心，汽车最终变为“行走的移动终端”已成多数人的共识，AI大模型在汽车上的应用也将“驶上快车道”。大模型上车的主要方向有两个：一是进入座舱域，实现更加智能的人机交互；二是与自动驾驶系统相配合，进一步完善智能驾驶解决方案。迈驰智行科技有限公司CTO张弛表示，大模型加速了自动驾驶从高速公路向更加复杂的城区场景的过渡，也促进了端到端感知规控一体化的形成。爱芯元智联合创始人、副总裁刘建伟介绍，爱芯元智在2022年预判了Transformer的爆发，并率先推出了搭载爱芯通元AI处理器的芯片。爱芯元智的智驾芯片，如M55H及M76H等，已搭载在当前热销的车型之上。