今天凌晨,李飞飞空间智能首个产品惊艳亮相。
开局一张图,它就能生成一个 3D 视频游戏场景。虽说现在有不少 AI 都能把照片转化为 3D 模型,但 World Labs 带来的不只是建模,而是一个真正可交互、可编辑的活体世界。
除了原始输入的图片,所有内容都是通过 AI 生成。
World Labs 在博客中说道:
大多数生成式 AI 工具都制作图像或视频等 2D 内容。相反,以 3D 形式生成可以提高控制和一致性。这将改变我们制作电影、游戏、模拟器和物理世界的其他数字表现形式的方式。
实际上,当前市场不乏 3D 生成模型,但通常会出现许多问题。比如初创公司 Decart 的 Minecraft 模拟器 Oasis,要么画面不够清晰,要么场景布局经常混乱。
相比之下,World Labs 却创造出了一个稳定、真实且符合物理规则的 3D 世界。
一个活的世界,比一千张死的图片更有价值。
一张图生成一个 3D 游戏世界?李飞飞空间智能首秀
开局一张图,结局竟是一个世界?一起来看看 World Labs 产品生成的 3D 游戏世界。
使用鼠标或键盘 W/A/S/D 自由穿行,然后用鼠标单击并拖动来环顾四周:
体验地址:https://www.worldlabs.ai/blog
场景生成好后,你就成了一个虚拟摄影师,在浏览器里实时操控相机,想拍什么角度就拍什么角度,如同专业摄影。
还能模拟浅景深,不过,只有距离相机一定距离的物体才能清晰对焦:
推拉镜头也没问题。
World Labs 的核心突破在于,他们没有止步于像素级的表面呈现,而是直指 3D 场景生成的本质优势:
恒久的现实:创造出来的 3D 世界是稳定的,不会消失或者偷偷改变。
实时控制:生成场景后,想去哪去哪,甚至能凑近看花朵的每个细节。
真实的物理规则:生成的世界遵循现实世界的物理法则,没有漂浮的物体,没有穿墙的 bug,就像现实世界一样自然
World Labs 还表示,通过深度贴图技术,他们成功让每个像素都有了真实的空间距离感。而图片中每个像素的颜色,都是由它和摄像头的距离来决定的。
不仅如此,World Labs 还给场景注入了灵魂——添加各种互动特效,打造动画效果,让整个世界活起来。
来都来了,脑洞大开的 World Labs 还能把梵高、霍珀这些大师的名画还原成可以探索的 3D 世界。不得不说,绝美。
而且原画里没有的东西,它都能「脑补」出来,而且出奇地合理。
联动 Midjourney,让创作者玩转 3D 新世界
说到创作过程,3D 生成的世界还能和其他 AI 工具完美配合,这意味着创作者可以用自己熟悉的工具,创造出全新的体验。
比如说,World Labs 可以先使用文本到图像模型生成图像,从而从文本创建世界。不同的模型有自己的风格,而这些独特的风格都能被保留下来。
来看个具体的例子。
World Labs 团队基于同一提示词,让不同的 AI 画了四个版本的青少年卧室。
A vibrant cartoon-style teenager’s bedroom with a bed covered in colorful blankets, a cluttered desk with a computer, posters on the walls, and scattered sports gear. A guitar leans against the wall, and a cozy, patterned rug is in the center. Light from a window adds a warm, youthful vibe to the room.
一间充满活力的卡通风格青少年卧室,床上铺着五颜六色的毯子,杂乱的书桌上放着一台电脑,墙上贴着海报,运动装备散落。一把吉他靠在墙上,中间是一块舒适的图案地毯。窗外的光线为房间增添了温暖、年轻的氛围。
已经有一些创作者通过与 World Labs 达成合作,提前用上了。比如,Eric Solorio 就展示了怎么用它来设计人物动作和控制镜头。
而 Brittani Natali 则把 World Labs 的技术和 Midjourney、Runway、Suno、ElevenLabs 等工具组合起来,设计丰富的镜头运动,并创作出富有情感张力的短片。
不过,World Labs 也坦言:
这些结果是我们生成 3D 世界的第一次早期预览。我们正在努力提高生成世界的大小和保真度,并尝试让用户与它们交互的新方式。
另外,想试试吗?现在可以去申请候补名单了。
附上地址:
https://forms.gle/tkfW7yMqMsCXWw4F7
并且,World Labs 现在也在招人,总共开放应用 AI 研究工程师、业务运营、数据工程师、模型优化工程师、产品设计师等 8 类岗位。
感兴趣可以去看看:
https://jobs.ashbyhq.com/worldlabs
值得注意的是,博客里提到页面上所有的图片均使用 FLUX 1.1 [pro]、Ideogram 或 Midjourney 生成,堪称巧妙联动。
李飞飞本人也第一时间在 X 平台站台宣传:
非常兴奋地向你展示我们团队 @theworldlabs 的最新成果!无论你如何构思这个概念,用语言来形容通过照片或句子生成的 3D 场景的互动感受都是相当有挑战性的。希望你能喜欢这篇博客!🤩❤️🔥
硬刚 Sora!李飞飞为什么说 2D 已死,3D 当立?
深入探讨 World Labs 的技术,就不得不回到这家公司的起点。
被誉为「AI 教母」的李飞飞曾任 Google Cloud AI 负责人。今年 9 月份,在成功融资 2.3 亿美元后,她正式官宣创办 AI 初创公司 ——World Labs。
当时,李飞飞发文称,将与其他三位联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall,以及一支世界级图像技术团队共同创办实验室,致力于解决这个大自然花费五亿年才解决的超级难题。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
World Labs 也宣称明年将推出首款构建能够理解 3D 世界并与之交互的 AI 模型产品,公司称其为「大世界模型」。
据称目标用户是艺术家、设计师、开发人员和工程师,以及游戏公司和电影公司。
关于空间智能,World Labs 的官网是这样描述的:
「人类智能有许多方面,其中之一是语言智能,它使我们能够通过语言进行交流和与他人联系。但更为基础的或许是空间智能,它让我们能够理解和与周围世界互动。
空间智能还能帮助我们创造,将脑海中的画面带入现实世界…… 要超越当今模型的能力,我们需要具备空间智能的 AI,它能够在三维空间和时间中对世界进行建模,并对物体、场所和交互进行推理。」
在 World Labs 正式成立后,李飞飞在接受 a16z 采访时强调,空间智能是视觉智能的核心。相比仅限于一维的语言模型,空间智能作为理解和创造三维世界的基础,对 AI 的发展至关重要。
未来,空间智能将帮助我们将这些体验提升到 3D 级别。不仅仅是图像或剪辑,而是一个完全模拟但又充满活力和互动的 3D 世界。
这种技术可能用于游戏,但用途远不止于此,比如虚拟摄影等各种应用场景,甚至有数百万种可能的应用。
现在发布的项目也印证了她的说法。
今天凌晨,英伟达 AI 智能体项目负责人 Jim Fan (同时也是李飞飞的前学生)发文表示祝贺:
GenAI 正在创建越来越高维的人类体验快照。Stable Diffusion 是一个 2D 快照。
Sora 是一个带有时间维度的 2D 快照。现在,World Labs 带来了一个 3D 且完全沉浸式的快照。空间智能得以优雅地呈现,非常出色。
插个冷知识,在 Sora 迟迟未能落地之际,李飞飞曾在斯坦福大学的一场闭门论坛上公开 diss Sora。
她指出,尽管 OpenAI 的 Sora 模型能够生成视频,但其核心仍是二维,缺乏对三维空间的深入理解。
在她看来,二维是表象,三维是本质,空间智能才是 AI 通向 AGI 的钥匙。
当时,她以 Sora 模型生成的「日本女性走过霓虹闪烁东京街头视频」举例称:
如果你希望算法换个角度,来展现这个女子走过街头的视频,比如把摄像机放在女子背后,Sora 无法做到。
因为这个模型对于三维世界并没有真正的深刻理解。而人类可以在脑海中想象女子背后的情景。
人类可以理解在复杂的环境下如何活动。我们知道如何抓取,如何控制,如何打造工具,如何建造城市。根本而言,空间智能是几何形状,是物体间的关系,是三维空间。
可以说,从 Stable Diffusion 的二维图像,到 Sora 的时间维度视频,再到 World Labs 开创的交互式 3D 世界,AI 不仅要理解世界,更要创造世界。
一张照片是起点,一个真正立体、可交互、富有生命力的虚拟世界是终点,而 World Labs 正在弥合这道鸿沟。