Media2Face:通过语音合成3D面部画面





Media2Face能够根据声音来生成与语音同步的、表现力丰富的3D面部动画。


同时允许用户对生成的面部动画进行更细致的个性化调整,如情感调整,“快乐”或“悲伤”等。


它还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。


## 实际应用:


- 创造对话场景:比如,根据你写的剧本,电脑可以生成人物对话的动画场景。

- 制作风格化的面部动画:你可以给电脑一个表情符号,它就能根据这个符号创造出动画。

- 情感歌唱:电脑还能根据不同的语言唱歌,表现出对应的情感。

- 个性化动画:最神奇的是,这个项目能够创造出符合不同人种、年龄和性别的个性化面部动画。


## 工作原理:


Media2Face项目的工作原理涉及几个关键技术和步骤,使其能够从语音合成出具有丰富表情和情感的3D面部动画。下面是该项目的主要工作流程:


1. 通用神经参数化面部资产(GNPFA):


面部映射:首先,研究团队创建了一个特殊的工具(叫做GNPFA),它就像一个大型的面部表情数据库。无论你想要什么样的表情,这个工具都能帮你找到,并且还能确保每个人的面部动画都独一无二,不会和别人混淆。


这个过程实现了表情和身份的解耦,即能够在不同的身份之间转换相同的表情。


2. 高质量表情和头部姿势提取:


然后,他们用这个工具处理了很多视频,从中提取出了高质量的表情和头部动作。这样就创建了一个巨大的数据集,里面包含了各种各样的面部动画和对应的情感、风格标签。


3. 多模态引导的动画生成:


扩散模型应用:Media2Face采用一个扩散模型在GNPFA的潜在空间中进行动画生成,这个模型能够接受来自音频、文本和图像的多模态引导。


条件融合:模型将音频特征和CLIP潜在代码作为条件,与表情潜在代码序列的噪声版本以及头部运动代码(即头部姿势)一起去噪。


交叉注意力机制:条件被随机掩蔽,并通过与噪声头部运动代码的交叉注意力进行处理。


4. 高保真度和风格多样性的动画:


表情和头部姿势生成:在推理时,通过DDIM采样头部运动代码,然后将表情潜在代码输入到GNPFA解码器中提取表情几何形状,结合模型模板生成由头部姿势参数增强的面部动画。


5. 微调和个性化:


表情和风格微调:通过表情编码器提取关键帧表情潜在代码,并通过CLIP提供每帧的风格提示,如“快乐”或“悲伤”,用户可以调整动画的强度和控制范围。


通过这些技术步骤,Media2Face能够生成与语音同步的、表现力丰富的3D面部动画,支持复杂的情感表达和风格变化,为创建虚拟角色和增强数字人物的交互体验提供了强大工具。


项目及演示:https://sites.google.com/view/media2face

论文:https://arxiv.org/abs/2401.15687

GitHub:coming soon..


视频:https://youtu.be/MJNA8bjDtNs

留言