Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

在 4月 04, 2024

VLOGGER：基于文本和音频驱动，从单张照片生成会说话的人类视频

## VLOGGER的独特之处在于：

- 不需要针对每个人进行训练。

- 不依赖于面部检测和裁剪。

- 生成的是完整图像（而不仅仅是面部或嘴唇）。

- 考虑了一系列广泛的场景（例如，可见的躯干或多样的身份特征），这对于正确合成交流的人类至关重要。

但是看演示视频，效果好像没有阿里的EMO好...

项目地址：https://enriccorona.github.io/vlogger/

论文：https://arxiv.org/abs/2403.08764

在视频翻译方面，VLOGGER可以取一个特定语言的现有视频，并编辑唇部和面部区域以适应新的音频，例如西班牙语。

视频：https://youtu.be/IwiK4e2PKrA

留言