VividTalk：单张照片+一段音频即可让照片说话

你只需要提供一张人物的静态照片和一段语音录音，VividTalk就能将它们结合起来，制作出一个看起来像是实际说话的人物的视频。

而且面部表情和头部动作都很自然，口型可以同步、支持多种语言，不同风格，如真实风格、卡通风格等。

该项目由由南京大学、阿里巴巴、字节跳动和南开大学共同开发。

VividTalk通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

## 其工作原理的详细说明：

1、音频到网格的映射（第一阶段）：

在这一阶段，VividTalk首先将输入的音频映射到3D网格上。这涉及学习两种类型的运动：非刚性表情运动和刚性头部运动。

对于表情运动，技术使用混合形状（blendshape）和顶点作为中间表示，以最大化模型的表示能力。混合形状提供了全局的粗略运动，而顶点偏移则描述了更细致的嘴唇运动。

对于自然的头部运动，VividTalk提出了一个新颖的可学习的头部姿势代码本，采用了两阶段训练机制。

2、网格到视频的转换（第二阶段）：

在第二阶段，VividTalk使用双分支运动-VAE（变分自编码器）和生成器将学习到的网格转换为密集的运动，并基于这些运动逐帧合成高质量的视频。

这一过程涉及将3D网格的运动转换为2D密集运动，然后输入到生成器中，以合成最终的视频帧。

3、高视觉质量和真实感：

VividTalk生成的视频具有高视觉质量，包括逼真的面部表情、多样的头部姿势，并且在嘴唇同步方面有显著提升。

通过这种方法，VividTalk能够生成与输入音频高度同步的逼真说话头像视频，提高了视频的真实感和动态性。

项目及演示：<https://humanaigc.github.io/vivid-talk/>

论文：<https://arxiv.org/pdf/2312.01841.pdf>

GitHub：<https://github.com/HumanAIGC/VividTalk>

Tarogo Gugu Bloger