Seed-TTS细节的 TTS 技术

 




制作出来的有声书可能要让喜马拉雅的很多主播失业了!支持多种语言。

目前还没看到项目代码或者测试地址,只有论文

摘要

我们介绍了Seed-TTS,这是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的语音。
Seed-TTS作为语音生成的基础模型,在语音上下文学习中表现出色,在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。
通过微调,我们在这些指标上获得了更高的主观评分。
Seed-TTS在各种语音属性(如情感)上提供了卓越的可控性,并且能够为自然环境中的说话者生成高度富有表现力和多样化的语音。
此外,我们提出了一种用于语音因子化的自蒸馏方法,即通过让模型自行学习和改进的方式来提高性能,以及一种增强模型鲁棒性、说话者相似性和可控性的强化学习方法。
我们还展示了Seed-TTS模型的非自回归(NAR)变体,名为Seed-TTSDiT,它采用完全基于扩散的架构。
与以前的基于NAR的TTS系统不同,Seed-TTSDiT不依赖于预估的音素持续时间,而是通过端到端处理进行语音生成。
我们证明了这种变体在客观和主观评估中达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

同时支持不同语言间的语音转换,帮助跨语言沟通和交流。
Seed-TTS 在多个实验中表现优异,其生成的语音在自然度和说话者相似度上接近人类语音。

如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

论文:
https://bytedancespeech.github.io/seedtts_tech_report/#applications-samples

油管:https://youtu.be/KaBrQAPFGYw

留言