阿里巴巴的EMO: 情感肖像活灵活现

在简单条件下通过音频到视频的扩散模型生成充满表情的肖像视频

## 摘要

提出了 EMO，一个能够根据单张参考图片和声音（如说话或唱歌）生成充满表情的肖像视频的框架。这种方法不仅能够捕捉到丰富的面部表情和多样的头部姿势，还能根据声音的长度自由调整视频的持续时间。

## 方法

我们的框架分为两大部分。首先是“帧编码”阶段，通过 ReferenceNet 从参考图片和运动帧中提取特征。接着在“扩散过程”阶段，预训练的音频编码器开始处理声音数据。我们通过将面部区域掩模与多帧噪声结合，精准控制面部图像的生成。此外，我们利用 Backbone Network 进行去噪处理，并在其中运用了两种注意力机制：参考注意力和音频注意力，分别用于保持角色身份的一致性和调整角色动作的自然性。时间模块的加入，更是让我们能够灵活控制动作的速度。

项目地址：https://humanaigc.github.io/emote-portrait-alive/

视频：https://youtu.be/Ne9AoyLpIFU

Tarogo Gugu Bloger

搜尋此網誌

阿里巴巴的EMO: 情感肖像活灵活现

留言

發佈留言