4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。
据悉,该模型采用Diffusion(扩散概率模型)与Transformer融合的架构U-ViT(由团队2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion(扩散概率模型)与Transformer融合架构,完全由团队自主研发),支持一键生成长达16秒、分辨率高达1080P的高清视频内容。Vidu所生成的短片,采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间插帧(通过在视频的每两帧画面中增加一帧或多帧来提升视频的长度或流畅度)和其他多步骤处理。与Sora一致,Vidu能够根据提供的文本描述直接生成高质量的长视频内容。