Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目



VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频


## VLOGGER的独特之处在于:


- 不需要针对每个人进行训练。

- 不依赖于面部检测和裁剪。

- 生成的是完整图像(而不仅仅是面部或嘴唇)。

- 考虑了一系列广泛的场景(例如,可见的躯干或多样的身份特征),这对于正确合成交流的人类至关重要。


但是看演示视频,效果好像没有阿里的EMO好...


项目地址:https://enriccorona.github.io/vlogger/

论文:https://arxiv.org/abs/2403.08764


在视频翻译方面,VLOGGER可以取一个特定语言的现有视频,并编辑唇部和面部区域以适应新的音频,例如西班牙语。


视频:https://youtu.be/IwiK4e2PKrA

留言