微信关注,获取更多

OpenAI新模型文字生成视频,虚拟现实界限模糊?

当生活影像视频也能被AI一键生成,事件还有什么真假之分?继ChatGPT之后,OpenAI终于对文字生成视频下手了,推出了一款全新的纹身视频模型Sara,其影像之真效果之强令看过的人都说真实不存在了。Sara是OpenAI于2024年2月15日正式对外发布的首个人工智能纹身视频大模型。它可以根据用户的文本提示,快速创建出逼真的视频。截止目前为止,sa快速制作出的视频已经可以达到1分钟,而且还是一镜到底。无无论在画面的细致程度还是视频时长上,sa都完全吊打市面上现有的所有视频生成模型。

技术原理:从‘画面处理’到‘世界模拟’

从OpenAI目前公布出的消息来看,他们并没有称Sara为视频模型,而是将其称为世界模拟器。也就是说Sara在基本工作原理上就和running man和SVD的视频之间的不同。这是因为之前的AI视频处理的只是画面,但却无法理解画面里的物体之间关系。所以生成的视频不是画面不稳定,缺乏连贯性,就是在人物渲染方面造成恐怖谷效应。而OpenAI的学习方式则是完全在以人类先记忆再预测的方式进行学习,以模拟人类和世界的交互方式。简单来说,Sara就是通过大量的学习视频来理解现实世界的动态变化,运用计算机视觉技术来模拟这些变化,从而创作出全新的视觉内容。它已经不仅局限于学习图片和视频,同时它也在学习视频里那个世界的物理规律。

AI视频生成模型展示图

颠覆性突破与未来展望

Sara展现出来的视频效果具有多个角色特定类型的动作,以及主题和背景的准确细节的复杂场景等特点,完全符合电影工业的边界。而且它的制作时间超短,成本也仅仅需要文字,相比于需要几个月才能做出的电影CG特效,以及工作量巨大的真实3D建模贴图以及渲染等工作,Sara可以算得上一项极具颠覆性的数字孪生技术。

而且Sara的出现也代表着AI对人类世界的理解已经从文字图像发展到了对世界三弟模型的理解,以及对物理定律的理解,彻底打破了虚拟与现实的边界。不过Sara也并不是完全无懈可击,目前的它并不能完全理解并模拟复杂场景的物理原理以及因果关系,经常会出现混淆提示的空间细节等问题。但事实上,Sara已经是人工智能在理解和模拟运动中的物理世界迈上了一个新高度。通用的物理世界模拟器以及通用的人工智能正在加速到来,人类即将进入一个真正可以用真实物理定律孪生的数字世界。也许就在不久的将来,视频制作将会成为每个普通人表达自己的一个非常重要的手段。

未经允许不得转载:加法网 » OpenAI新模型文字生成视频,虚拟现实界限模糊?