北京大学Yuangroup团队发起了一个 Open-Sora计划



旨在复现OpenAI 的Sora模型


Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件,来实现Sora模型的功能。


## 该项目现在支持  :


🚀可变长宽比

✈️可变分辨率

🚅可变持续时间


演示视频:10s视频重建(256x256分辨率)/ 18s视频重建(196x)


Open-Sora计划实现了以下几个关键组件和特性来复现OpenAI的视频生成模型:


1、视频VQ-VAE(Vector Quantized-Variational AutoEncoder):这是一个压缩视频到时间和空间维度的潜在表示的组件。它可以将高分辨率视频压缩成低维度的表示,便于后续的处理和生成。

2、去噪扩散变换器(Denoising Diffusion Transformer):这个组件用于从潜在表示中生成视频,通过逐步减少噪声来恢复视频的详细内容。

3、条件编码器(Condition Encoder):支持多种条件输入,允许模型根据不同的文本描述或其他条件生成视频内容。


## 此外,项目还实施了几项技术以增强视频生成的灵活性和质量:


1、可变长宽比:通过动态遮罩策略并行批量训练,保持灵活的长宽比。将高分辨率视频调整大小以使最长边为256像素,保持长宽比,然后在右侧和底部用零填充以达到统一的256x256分辨率。


2、可变分辨率:尽管在固定的256x256分辨率上训练,但在推理过程中,使用位置插值使得可以进行可变分辨率采样。这使得注意力基础的扩散模型能够处理更高分辨率的序列。


3、可变持续时间:利用视频VQ-VAE压缩视频到潜在表示,实现多持续时间的视频生成。通过将空间位置插值扩展到时空版本,以处理可变持续时间的视频。


项目地址:https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html

GitHub:https://github.com/PKU-YuanGroup/Open-Sora-Plan


新视频:https://youtu.be/FLbicQlWMs4

留言