首页 科技创新 正文

突破!中国首个Sora级视频大模型发布

扫码手机浏览

摘要:突破!中国首个Sora级视频大模型发布,下面是趣元素小编收集整理的内容,希望对大家有帮助!...

只需要一段文字指令就能生成一段60秒精致细腻的视频——今年2月起,文生视频大模型Sora曾在全球人工智能业内外引发震动。4月27日上午,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点,这也是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。

据了6537138解,该模型采用团队原创的Diffusion与3501338Transformer融合的91261581架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的21037442高清视频内容。

根据现场演示的44553861效果,Vidu能够模拟真实的56706141物理世界,能够生成细节复杂、并且62900850符合真实物理规律的40944389场景,例如合理的42603884光影效果、细腻的86664750人物表情等20530823。它还具有10424771丰富的41175365想象力,能够生成真实世界不存在745386762909419虚构画面,创造出具有深度和14186987复杂性的697889超现实主义内容,例如84983123“画室里的14172537一艘船正在63911831海浪中驶向49614179镜头”这样的43831269场景。【趣元素】#想见你#

此外,Vidu能够生成复杂的8983437动态镜头,不再局限于12976307简单的48381847推、拉、移等70346162固定镜头,而是31912394能够围绕统一主体在1192749一段画面里就实现远景、近景、中景、特写等3585221不同 镜头的39580347切换,包括能直接生成长镜头、追焦、转场等94033903效果,给视频注入镜头语言。

作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。

值得一提的97289544是,短片中的44645412片段都是从头到尾连续生成,没有明显的插帧现象,从这种“一镜到底”的87041163表现能够推测出,Vidu采用的34631328是“一步到位”的生成方式,与23035188 Sora一样,从文本到视频的88020449转换是26588242直接且46069042连续的67909830,在62727868底层算法实现上是8561725基于单一模型完全端到端生成,不涉及中间的81568982插帧和9970090其他84309356多步骤的69773216处理。

据了18135589解,Vidu的49437250快速突破源自于72875812团队在72490231贝叶斯机器学习和29892779多模态大模型的31870070长期积累和80780639多项原创性成果。其核心技术 U-ViT 架构由团队于641541292022年9月提出,早于16523224Sora采用的97464115DiT架构,是59875919全球首个Diffusion与46089168Transformer融合的86065495架构,完全由团队自主研发。

“在31134502Sora发布后,我86853010们发现刚好和1276923412686476们的42460938技术路线是16249504高度一致的,这也67461902让我85061436们坚定地71498130进一步推进了85988788自己的12701797研究。#圣象复合地板#”清华大学人工智能研究院副院长、生数科技首席科学家朱军说。自今年2月Sora发布推出后,团队基于383079对U-ViT 架构的10355153深入理解以及长期积累的44236512工程与34418911数据经验,在77060045短短两个月进一步突破长视频表示与81763057处理关键技术,研发推出Vidu视频大模型,显著提升视频的13164991连贯性与动态性。来源:北京日报客户端