字节跳动发表文生图开放模型SDXL-Lightning

作者：爱集微 02-24 07:50

来源：钜亨网 #字节跳动# #AI#

1.9w

字节发表文生图开放模型 SDXL-Lightning。AI 开源社群 Hugging Face 的最新名单，SDXL-Lightning 跻身模型趋势榜，同时也成为 Hugging Face Spaces 上的热门模型。

报导称，与 SDXL-Lightning 一同上榜的，是 Google 新推出的“最强开放大模型”Gemma 系列，以及 Stability AI 的新一代文生图模型 Stable Cascade。

在影像生成领域，先进模型的生成技术依赖扩散过程，就是把杂讯逐步转换为影像样本的迭代。这个过程通常需要 20 到 40 次呼叫神经网络，不仅会耗费庞大的运算资源，生成速度也比较慢。产生一张高品质影像，大约需要 5 秒。

知情人士透露，字节跳动的 SDXL-Lightning 透过渐进式对抗蒸馏的技术，实现前所未有的生成速度。此模型能够在 2 步或 4 步内产生极高品质和解析度的影像，将产生速度加快十倍，是 1024 解析度下速度最快的文生图模型，计算成本则降低为十分之一。

字节跳动智能创作团队对回应称，开源开放的浪潮已成为推动人工智能快速发展的关键力量，SDXL-Lightning 模型基于已有繁荣生态的文生图开放模型 SDXL，设计之初就考虑到与开放模型社区的兼容。 SDXL-Lightning 可以作为增速插件无缝整合到卡通、动漫等多样风格的 SDXL 模型中，并支援当前流行的控制插件 ControlNet、产生软体 ComfyUI，方便开发者、研究人员和创意从业者结合这些工具，助力整个产业的创新和协作。

此前有消息称，在 Sora 引爆文生视频赛道之前，字节跳动也推出了一款颠覆性视频模型 Boximator。与 Gen-2、Pink1.0 等模型不同的是，Boximator 可以透过文字精准控制产生影片中人物或物件的动作。

对此，字节跳动相关人士回应称，Boximator 是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。