MetaVoice-1B：高度真实和自然的文本到语音（TTS）转换模型

模型有1.2亿个参数，经过了10万小时的语音数据训练。

* 专注英语情感演讲

* 跨语言语音克隆

* 支持美国和英国声音的零样本克隆

* 支持长篇内容语音合成

## 主要特点：

1、情感语音节奏和音调：MetaVoice-1B专注于英语语音的情感表达，提供流畅、自然的语音输出，无幻觉现象。

2、跨语言语音克隆：支持通过微调实现跨语言的声音克隆。例如，对于印度说话者，仅需1分钟的训练数据即可实现成功克隆。

3、零样本克隆：对于美国和英国的声音，MetaVoice能够实现零样本克隆，只需30秒的参考音频即可。

4、长篇朗读支持：适用于长文本内容的语音合成。

## 工作原理：

1、因果GPT预测：MetaVoice使用一种称为因果GPT的模型来处理文本和生成语音。因果GPT能够根据给定的文本预测接下来的词或令牌。

在MetaVoice中，这个模型被用来预测EnCodec令牌的前两个层次，这些令牌代表了语音的初步结构。这种预测考虑了文本内容和音频样本，使得生成的语音既准确又自然。

2、说话者信息的条件化传递：为了让生成的语音能够模仿特定的说话者，MetaVoice在令牌嵌入层加入了说话者信息。这些信息是通过一个单独训练的说话者验证网络获得的，它能够识别说话者的特定属性，如音调和口音。通过将这些信息融合到模型中，MetaVoice能够生成与指定说话者声音相似的语音输出。

3、非因果变压器预测剩余层次：MetaVoice接下来使用一个小型的非因果（编码器风格）变压器模型来预测EnCodec令牌的剩余六个层次。这个模型只有大约1000万参数，相对较小，但是它在预测语音的更细节部分时展现出了惊人的效率和准确性。由于这个模型是非因果的，它可以同时处理多个时间步骤，加速了语音生成过程。

4、多带扩散生成波形：通过使用多带扩散技术，MetaVoice能够将EnCodec令牌转换成详细的波形，即最终的音频输出。这种方法通过在不同频带上独立处理音频信号来提高音质，生成更清晰、自然的语音。

5、DeepFilterNet清理背景噪声：生成的语音可能包含一些不希望的背景噪声，特别是由多带扩散过程引入的。为了解决这个问题，MetaVoice采用了DeepFilterNet，这是一种专门设计来清除背景噪声的网络。通过这一步骤，生成的语音变得更加清晰和自然，提升了听众的体验。

模型下载：https://huggingface.co/metavoiceio/metavoice-1B-v0.1

GitHub：https://github.com/metavoiceio/metavoice-src

在线体验：https://ttsdemo.themetavoice.xyz

视频：https://youtu.be/IrP_9N6jAb8