OpenAI新模型文字生成视频，虚拟现实界限模糊？-加法网

当生活影像视频也能被AI一键生成，事件还有什么真假之分？继ChatGPT之后，OpenAI终于对文字生成视频下手了，推出了一款全新的纹身视频模型Sara，其影像之真效果之强令看过的人都说真实不存在了。Sara是OpenAI于2024年2月15日正式对外发布的首个人工智能纹身视频大模型。它可以根据用户的文本提示，快速创建出逼真的视频。截止目前为止，sa快速制作出的视频已经可以达到1分钟，而且还是一镜到底。无无论在画面的细致程度还是视频时长上，sa都完全吊打市面上现有的所有视频生成模型。

技术原理：从‘画面处理’到‘世界模拟’

从OpenAI目前公布出的消息来看，他们并没有称Sara为视频模型，而是将其称为世界模拟器。也就是说Sara在基本工作原理上就和running man和SVD的视频之间的不同。这是因为之前的AI视频处理的只是画面，但却无法理解画面里的物体之间关系。所以生成的视频不是画面不稳定，缺乏连贯性，就是在人物渲染方面造成恐怖谷效应。而OpenAI的学习方式则是完全在以人类先记忆再预测的方式进行学习，以模拟人类和世界的交互方式。简单来说，Sara就是通过大量的学习视频来理解现实世界的动态变化，运用计算机视觉技术来模拟这些变化，从而创作出全新的视觉内容。它已经不仅局限于学习图片和视频，同时它也在学习视频里那个世界的物理规律。

颠覆性突破与未来展望

Sara展现出来的视频效果具有多个角色特定类型的动作，以及主题和背景的准确细节的复杂场景等特点，完全符合电影工业的边界。而且它的制作时间超短，成本也仅仅需要文字，相比于需要几个月才能做出的电影CG特效，以及工作量巨大的真实3D建模贴图以及渲染等工作，Sara可以算得上一项极具颠覆性的数字孪生技术。

而且Sara的出现也代表着AI对人类世界的理解已经从文字图像发展到了对世界三弟模型的理解，以及对物理定律的理解，彻底打破了虚拟与现实的边界。不过Sara也并不是完全无懈可击，目前的它并不能完全理解并模拟复杂场景的物理原理以及因果关系，经常会出现混淆提示的空间细节等问题。但事实上，Sara已经是人工智能在理解和模拟运动中的物理世界迈上了一个新高度。通用的物理世界模拟器以及通用的人工智能正在加速到来，人类即将进入一个真正可以用真实物理定律孪生的数字世界。也许就在不久的将来，视频制作将会成为每个普通人表达自己的一个非常重要的手段。

未经允许不得转载：加法网 » OpenAI新模型文字生成视频，虚拟现实界限模糊？