OpenAI Sora的新文本到视频模型





英伟达科学家@DrJimFan如何评价Sora?


1/Sora 是一个数据驱动的物理引擎,它是对许多世界的模拟

2/看似简单的步骤包含了大量的技术和模拟

3/未来它将取代所有手工设计的图形管道。


## 以下是正文:


Sora 是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的还是幻想的。模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。


如果 Sora 使用虚幻引擎 5 对大量合成数据进行训练,我不会感到惊讶。它必须如此!


我们来分解一下下面的视频。提示:“两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频。”


- 模拟器实例化了两种精美的3D资产:具有不同装饰的海盗船。 Sora 必须在其潜在空间中隐式地解决文本到 3D 的问题。

- 3D 对象在航行并避开彼此路径时始终保持动画效果。

- 咖啡的流体动力学,甚至是船舶周围形成的泡沫。流体模拟是计算机图形学的一个完整子领域,传统上需要非常复杂的算法和方程。

- 照片写实主义,几乎就像光线追踪渲染一样。

- 模拟器考虑到杯子与海洋相比尺寸较小,并应用移轴摄影来营造“微小”的氛围。

- 场景的语义在现实世界中并不存在,但引擎仍然实现了我们期望的正确物理规则。

X原帖文:https://x.com/DrJimFan/status/1758210245799920123?s=20

视频:https://youtu.be/x3nw17INTLE

留言