出品 | 搜狐科技
作者 | 梁昌均
编辑 | 杨锦
“需求高于预期,注册将暂停,生成速度将在一段时间内变慢。”OpenAI创始人&CEO山姆·奥特曼今日凌晨紧急发文表示。
奥特曼这句话指向的是OpenAI第三天直播发布的最新视频生成产品Sora,其被视为OpenAI实现AGI路线图的重要里程碑。
奥特曼带着Sora团队负责人Bill Peebles、研究副总裁Aditya Ramesh、Rohan Sahai、Joey Flynn在20分钟的在线直播中展示了最新的Sora。
这意味着,在鸽了近300天后,Sora终于正式迎来上线。今年2月,OpenAI发布了Sora模型,其可以根据文本创建视频,OpenAI也分享了意图模拟世界的初步研究进展。“Sora作为AI理解并模拟现实的基础——这是开发能够与物理世界互动模型的重要一步。”
此次最新发布的Sora产品则基于全新的模型——Sora Turbo,其是原始Sora模型的最新高端加速版本,研究团队对预览版进行了大规模优化,实现了性能更强、速度更快。
这款模型包含了OpenAI年初关于世界模拟器(Sora)技术报告中谈到的所有功能,除了文本生成视频,还具备图像和视频生成视频功能、重混成新风格、视频样式转换、时间序列向前和向后扩展等功能。
“我们在OpenAI启动了Sora项目,以构建真正深刻理解世界及其物理的AI系统。我们才刚刚开始,早期版本的Sora会犯错误,它不完美,但它已经到了我们认为它将真正有助于增强人类创造力的地步。”Sora团队负责人 Bill Peebles表示。
OpenAI为Sora开发了新的界面,让Sora使用文本、图像和视频变得更加容易,用户可以通过左侧的精选和最新来查看社区创作,从而为自己的新想法提供灵感。
据介绍,Sora此次主要演示了五个方面的功能。在文生成视频方面,用户只需输入简单的文本描述,即可生成动态视频,且可一次性生成四个,用户可以选择最好的视频;图像和视频扩展功能,通过上传图片或已有视频,用户可以延展场景、添加动作,而故事板工具则让用户可以精确指定每一帧的输入。
它还具备时间线编辑(Storyboard)功能,让用户能像导演一样,通过时间线规划多个场景,定义角色动作和场景细节,并实时预览生成效果。
根据演示,Sora还能进行风格和场景重塑(Remix & Loop),其中Remix功能支持对已有视频进行内容或风格的重塑,比如把正在奔跑的猛犸象变成机械猛犸;Loop功能则能衔接视频开头和结尾,做到首尾呼应。
Sora还提供名为Blend的高级功能,可以将两个视频融合成全新场景,相当于粉碎了两个视频形成新的视频。OpenAI方面强调称,这是其它AI视频从未见过的功能。
在视频分辨率和时长方面,Sora支持从480p到1080p的分辨率,并支持宽屏、垂直或方形宽高比,视频时长可在5到20秒之间自由设定,还不支持此前预览版长达60秒的视频生成时长。
Sora将在美国等多数国家可用,但暂未对欧洲及英国地区开放。OpenAI表示,希望这个早期版本的Sora能够使世界各地的人们探索新形式的创造力,讲述他们的故事,并推动视频叙事的可能性的界限。
在部署和定价方面,OpenAI将其作为独立产品发布给ChatGPT Plus和Pro用户,即不单独收费。订阅了每月20美元的ChatGPT Plus用户,每月生成50个480P分辨率的视频,或者更少的时长为5秒的720P分辨率视频。
订阅了每月200美元的ChatGPT Pro用户,可以获得无限生成(慢速)和最高分辨率,或者快速生成500次480P分辨率视频,或者更少的时长20秒的1080P分辨率视频,以及无水印下载。OpenAI正在为不同类型的用户制定定价,计划明年初提供。
OpenAI表示,目前部署的Sora版本还有许多限制,它经常生成不真实的物理效果,并且在长时间内对复杂动作的处理上存在困难。“Sora Turbo比2月份的预览版快得多,我们仍在努力使这项技术对每个人都负担得起。”
OpenAI还强调,开发视频生成技术是为了给社会探索可能性,并共同开发规范和保障措施,确保它被负责任地使用。
因此所有Sora生成的视频都引入C2PA认证,这将识别视频来自Sora,提供透明度,并可用于验证来源。OpenAI还添加了默认的水印等安全措施,并构建了一个内部搜索工具,该工具使用生成的技术来帮助验证内容是否来自Sora。
此外,OpenAI还强调,将会阻止有害的滥用形式,例如儿童性虐待和色情深度伪造。在启动时上传将受到限制,并在完善深度伪造缓解措施后,将该功能推广给更多用户。
在Sora上线后,ChatGPT服务器一度奔溃,显示了外界对它的期待。奥特曼也在直播中表示,视频应用程序很重要,有三个原因。
第一、OpenAI喜欢为创意人士制作工具,这对文化很重要,对希望人类如何使用AI也很重要。“我们认为这指向了关于AI、创意工具以及人们如何使用它们一些有趣的东西。”
第二、OpenAI不希望世界仅仅是文字,如果AI系统主要是通过文字与人互动,这将错过一些重要的东西。“我们希望我们的AI能够理解视频并生成视频,这会深刻改变我们使用计算机的方式。”
第三、这对于OpenAI实现AGI(人工通用智能)路线图至关重要。“视频将是一个重要的环境,我们将在这里学习,或者说AI将在这里学习很多关于现实世界中的知识。”
“对我来说,Sora最令人兴奋的一点是,它使得与他人共创变得如此容易。这感觉像是一个有趣的全新事物!”奥特曼表示,很高兴看到这种新型娱乐工具将被使用的所有新方式,它就像视频领域的GPT-1,现在还处于初期阶段,但随着人们使用,它会变得越来越好。
今年以来,Sora预览版点燃了视频生成产品大爆发,抖音、快手、智谱、生数,以及国外的Runway、Luma、Pika等都在持续进化,国内产品也纷纷谋求出海。
随着Sora上线,OpenAI将正式加入视频生成领域的竞争,接下来就是一番更加激烈的用户争夺战了。