9月24日,字节跳动旗下火山引擎发布两款视频生成大模型(豆包视频生成-PixelDance、豆包视频生成-Seaweed),首次面向企业市场开启邀测。
火山引擎介绍,豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,能更充分地压缩编码视频与文本,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。
此外,豆包视频生成模型另外一大技术创新是全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题。该模型还使用深度优化的Transformer结构,大幅提升视频生成的泛化能力。
字节跳动透露,目前,新款豆包视频生成模型正在即梦AI内测版小范围测试,未来将逐步开放给所有用户。(校对/陈炳欣)