SpeechAlign:利用人类反馈改变语音合成,以增强技术交互的自然性和表现力




复旦大学的一个研究团队开发了 SpeechAlign,这是一个针对语音合成核心的创新框架,使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同,SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。


SpeechAlign 通过从人类反馈中学习的系统方法而脱颖而出。它精心构建了一个数据集,其中将首选的语音模式或黄金标记与不太首选的合成语音模式放在一起。该比较数据集是迭代完善语音模型的一系列优化过程的基础。每次迭代都是朝着更好地理解和复制人类语音偏好的模型迈出的一步,利用客观指标和主观人类评估来衡量成功。


语音合成在技术进步方面取得了巨大进步,反映了人类对像我们一样说话的机器的追求。

当步入一个与数字助理和会话代理交互变得司空见惯的时代时,对与人类交流的自然性和表现力相呼应的语音的需求变得前所未有的迫切。这一挑战的核心在于合成听起来像人类的语音,并符合个人对语音的细微偏好,例如语气、语速和情感表达。


复旦大学的一个研究团队开发了 SpeechAlign,这是一个针对语音合成核心的创新框架,使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同,SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。


SpeechAlign 通过从人类反馈中学习的系统方法而脱颖而出。它精心构建了一个数据集,其中将首选的语音模式或黄金标记与不太首选的合成语音模式放在一起。该比较数据集是迭代完善语音模型的一系列优化过程的基础。每次迭代都是朝着更好地理解和复制人类语音偏好的模型迈出的一步,利用客观指标和主观人类评估来衡量成功。


SpeechAlign 提供了一套全面的评估,从主观评估(人类听众对语音的自然度和质量进行评分)到客观测量(例如词错误率 (WER) 和说话者相似度 (SIM)),展示了其强大功能。使用 SpeechAlign 优化的模型实现了 WER 改进,与基线模型相比降低了 0.8,并且说话人相似度分数得到了增强,达到了 0.90 大关。这些指标标志着技术的进步,并表明对人类声音及其各种细微差别的更接近的模仿。


SpeechAlign 展示了其在不同模型大小和数据集上的多功能性。它证明了其方法足够强大,可以增强较小的模型,并且可以将其改进推广到看不见的扬声器。此功能对于在不同场景中部署语音合成技术至关重要,确保 SpeechAlign 的优势能够广泛传播,而不局限于特定案例或数据集。


总之,SpeechAlign 研究解决了将合成语音与人类偏好保持一致的关键挑战,这是传统模型一直难以弥合的差距。该方法创新地将人类反馈纳入迭代的自我改进策略中。它通过对人类偏好的细致了解来微调语音模型,并定量改进 WER 和 SIM 等关键指标。这些结果强调了 SpeechAlign 在增强合成语音的自然度和表现力方面的有效性。


如果想详细了解,可以点开视频下方的链接。

谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢


快速阅读: https://marktechpost.com/2024/04/10/speechalign-transforming-speech-synthesis-with-human-feedback-for-enhanced-naturalness-and-expressiveness-in-technological-interactions/ 

Paper: https://arxiv.org/abs/2404.0560

Github: https://github.com/0nutation/SpeechGPT?tab=readme-ov-file


视频:https://youtu.be/2Uxe4igNZTg

留言