12月17日 - 图森未来今日正式发布“Ruyi” - 图生视频大模型,并将Ruyi-Mini-7B版本正式开源,用户可以从huggingface上下载使用。图森未来希望通过开源模式,让更多AIGC爱好者和社区成员能够自由体验。
Ruyi是图森未来正式发布的第一款“图生视频”模型。凭借在帧间一致性、动作流畅性方面的卓越表现,以及和谐自然的色彩呈现和构图,Ruyi大模型将为视觉叙事提供全新的可能性。同时,该模型还针对动漫和游戏场景进行深度学习,将成为ACG爱好者理想的创意伙伴。
Ruyi是一个基于DiT架构的图生视频模型,它由两部分构成:一个Casual VAE模块负责视频数据的压缩和解压,一个Diffusion Transformer负责压缩后的视频生成。其中Casual VAE模块会将空间分辨率压缩至1/8,时间分辨率压缩至1/4,压缩后每个像素由16位的BF16进行表示。DiT部分使用3D full attention,在空间上使用2D RoPE进行位置编码,时间上使用sin_cos进行位置编码,最终的loss选用了DDPM进行训练。模型的总参数量约为7.1B,使用了约200M视频片段进行训练。
图森未来曾是自动驾驶领域的明星公司,由于2022年的一系列高层争权斗争,导致图森未来与自动驾驶卡车开发合作伙伴Navistar International分道扬镳。随后公司加速走向下坡路。
今年1月17日,图森未来突然发布退市公告称,2024年1月16日,公司仅由独立董事组成的特别委员会与公司董事会执行主席陈默签订合作协议,该委员会决定批准和授权公司A类普通股的退市和注销。随后图森未来被爆转型消费级市场。