MetaVoice-1B:高度真实和自然的文本到语音(TTS)转换模型



模型有1.2亿个参数,经过了10万小时的语音数据训练。


* 专注英语情感演讲 

* 跨语言语音克隆 

* 支持美国和英国声音的零样本克隆 

* 支持长篇内容语音合成


## 主要特点:

1、情感语音节奏和音调:MetaVoice-1B专注于英语语音的情感表达,提供流畅、自然的语音输出,无幻觉现象。

2、跨语言语音克隆:支持通过微调实现跨语言的声音克隆。例如,对于印度说话者,仅需1分钟的训练数据即可实现成功克隆。

3、零样本克隆:对于美国和英国的声音,MetaVoice能够实现零样本克隆,只需30秒的参考音频即可。

4、长篇朗读支持:适用于长文本内容的语音合成。


## 工作原理:


1、因果GPT预测:MetaVoice使用一种称为因果GPT的模型来处理文本和生成语音。因果GPT能够根据给定的文本预测接下来的词或令牌。

在MetaVoice中,这个模型被用来预测EnCodec令牌的前两个层次,这些令牌代表了语音的初步结构。这种预测考虑了文本内容和音频样本,使得生成的语音既准确又自然。

2、说话者信息的条件化传递:为了让生成的语音能够模仿特定的说话者,MetaVoice在令牌嵌入层加入了说话者信息。这些信息是通过一个单独训练的说话者验证网络获得的,它能够识别说话者的特定属性,如音调和口音。通过将这些信息融合到模型中,MetaVoice能够生成与指定说话者声音相似的语音输出。

3、非因果变压器预测剩余层次:MetaVoice接下来使用一个小型的非因果(编码器风格)变压器模型来预测EnCodec令牌的剩余六个层次。这个模型只有大约1000万参数,相对较小,但是它在预测语音的更细节部分时展现出了惊人的效率和准确性。由于这个模型是非因果的,它可以同时处理多个时间步骤,加速了语音生成过程。

4、多带扩散生成波形:通过使用多带扩散技术,MetaVoice能够将EnCodec令牌转换成详细的波形,即最终的音频输出。这种方法通过在不同频带上独立处理音频信号来提高音质,生成更清晰、自然的语音。

5、DeepFilterNet清理背景噪声:生成的语音可能包含一些不希望的背景噪声,特别是由多带扩散过程引入的。为了解决这个问题,MetaVoice采用了DeepFilterNet,这是一种专门设计来清除背景噪声的网络。通过这一步骤,生成的语音变得更加清晰和自然,提升了听众的体验。


模型下载:https://huggingface.co/metavoiceio/metavoice-1B-v0.1

GitHub:https://github.com/metavoiceio/metavoice-src

在线体验:https://ttsdemo.themetavoice.xyz


视频:https://youtu.be/IrP_9N6jAb8

留言