StreamVC: 实时低延迟语音转换

 




以下翻译自原文:

抽象的。谷歌treamVC,这是一种流式语音转换解决方案,可以保留任何源语音的内容和韵律,同时匹配任何目标语音的音质。
与以前的方法不同,StreamVC 即使在移动平台上也能以低延迟从输入信号生成结果波形,使其适用于呼叫和视频会议等实时通信场景,并解决这些场景中的语音匿名等用例。
谷歌的设计利用 SoundStream 神经音频编解码器的架构和训练策略来实现轻量级高质量语音合成。
谷歌证明了因果学习软语音单元的可行性,以及提供白化基频信息以提高音调稳定性而不泄漏源音色信息的有效性。

简介
语音转换是指改变语音信号的风格,同时保留其语言内容。虽然风格涵盖了语音的许多方面,例如情感、韵律、口音和耳语,但在这项工作中,我们仅关注说话者音色的转换,同时保持语言和副语言信息不变。

语音转换的早期尝试依赖于基于 CycleGAN 或 StarGAN 直接转换的想法,或者通过学习特征解缠进行自动编码。然而,两者都未能提供高质量的结果。前者在经验上遭受了明显的伪影,而后者主要依赖于在潜在 或架构级别 创建信息瓶颈,这些瓶颈很难调整:这样的瓶颈太宽会导致信息泄漏源说话者信息,同时使其太窄会降低内容保真度。

最近的解决方案 集中于一种设计,其中内容信息是通过利用来自语音识别系统的预先训练的特征提取网络来获取的,称为音素后图(PPG)方法,或来自自监督表示学习。具体来说,利用 HuBERT , 利用 WavLM 。内容信息和学习的全局说话者嵌入的组合用作某些声码器模型的输入和条件,例如中使用的模型,这些模型经过训练以重建音频波形。

我们的建议遵循与相同的设计模式,并使用从 HuBERT 派生的伪标签来学习输出软语音单元的内容编码器。我们的解决方案的贡献和新的设计元素如下:

如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

博客:https://google-research.github.io/seanet/stream_vc/
ARXIV:https://arxiv.org/html/2401.03078v1

油管:https://youtu.be/wVic05rI77M

留言