生数科技联合清华推出国内首个“Sora级”视频大模型

作者：依然 2024-04-28

来源：爱集微 #生数科技# #清华#

4.2w

4月27日，在2024中关村论坛年会未来人工智能先锋论坛上，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。

该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

生数科技消息显示，Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后，全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。

生数科技指出，其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。2023年3月，该团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser，率先完成了U-ViT架构的大规模可扩展性验证。

作为通用视觉模型，Vidu能够支持生成更加多样化、更长时长的视频内容，同时面向未来，灵活架构将能够兼容更广泛的模态，进一步拓展多模态通用能力的边界。

生数科技成立于2023年3月，创始团队来自清华大学人工智能研究院，是全球范围内最早从事扩散概率模型研究的团队之一。

今年3月12日，生数科技宣布完成新一轮数亿元融资，由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。（校对/韩秀荣）