摘要:突破!中国首个Sora级视频大模型发布,下面是趣元素小编收集整理的内容,希望对大家有帮助!...
只需要一段文字指令就能生成一段60秒精致细腻的视频——今年2月起,文生视频大模型Sora曾在全球人工智能业内外引发震动。4月27日上午,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点,这也是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。
据了
解,该模型采用团队原创的Diffusion与 Transformer融合的 架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的 高清视频内容。根据现场演示的【趣元素】
效果,Vidu能够模拟真实的 物理世界,能够生成细节复杂、并且 符合真实物理规律的 场景,例如合理的 光影效果、细腻的 人物表情等 。它还具有 丰富的 想象力,能够生成真实世界不存在 的 虚构画面,创造出具有深度和 复杂性的 超现实主义内容,例如 “画室里的 一艘船正在 海浪中驶向 镜头”这样的 场景。此外,Vidu能够生成复杂的
动态镜头,不再局限于 简单的 推、拉、移等 固定镜头,而是 能够围绕统一主体在 一段画面里就实现远景、近景、中景、特写等 不同 镜头的 切换,包括能直接生成长镜头、追焦、转场等 效果,给视频注入镜头语言。作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。
值得一提的
是,短片中的 片段都是从头到尾连续生成,没有明显的插帧现象,从这种“一镜到底”的 表现能够推测出,Vidu采用的 是“一步到位”的生成方式,与 Sora一样,从文本到视频的 转换是 直接且 连续的 ,在 底层算法实现上是 基于单一模型完全端到端生成,不涉及中间的 插帧和 其他 多步骤的 处理。据了
解,Vidu的 快速突破源自于 团队在 贝叶斯机器学习和 多模态大模型的 长期积累和 多项原创性成果。其核心技术 U-ViT 架构由团队于 2022年9月提出,早于 Sora采用的 DiT架构,是 全球首个Diffusion与 Transformer融合的 架构,完全由团队自主研发。“在
Sora发布后,我 们发现刚好和 我 们的 技术路线是 高度一致的,这也 让我 们坚定地 进一步推进了 自己的 研究。 ”清华大学人工智能研究院副院长、生数科技首席科学家朱军说。自今年2月Sora发布推出后,团队基于 对U-ViT 架构的 深入理解以及长期积累的 工程与 数据经验,在 短短两个月进一步突破长视频表示与 处理关键技术,研发推出Vidu视频大模型,显著提升视频的 连贯性与动态性。来源:北京日报客户端