OpenAI推出的一音乐生成模型：Jukebox

（视频请转到SoundCloud观看）

OpenAI在2019年8月份就推出了他们的一音乐生成模型：Jukebox

Jukebox能够根据提供的歌词、艺术家和流派信息生成多种流派和艺术家风格的完整音乐和人声歌曲。

最牛P的是，3年前的质量就已经这样了...

而且据说Jukebox 2即将发布...

大规模音乐数据集训练

基于1.2百万首歌曲的大规模数据集进行训练，这些歌曲配备了相应的歌词和元数据。

利用这些丰富的数据资源，Jukebox能够学习和模仿复杂的音乐结构和风格。

## 主要功能特点：

1、多样化音乐风格生成：Jukebox能够生成多种音乐风格和艺术家风格的音乐，包括能够模拟初级唱歌的能力。这意味着Jukebox不仅可以创作乐器演奏的音乐，还可以生成包含人声的歌曲。

2、原始音频输出：与仅生成音乐符号数据的其他模型不同，Jukebox生成的是原始音频数据，包括旋律、和声以及歌声。保持了音乐的高质量，使得生成的音乐听起来更自然、更接近真实演出。

3、根据歌词生成音乐：Jukebox可以根据提供的歌词、艺术家和音乐风格生成新的音乐样本，这意味着它能够在给定创作指导的情况下从头开始创作新的音乐样本，即使是在训练过程中未曾见过的歌词。

4、歌词和旋律同步：Jukebox不仅可以生成音乐，还能生成与音乐同步的歌词，实现了音乐和歌词的协同创作。

5、风格和艺术家模仿：它可以根据指定的艺术家和音乐风格生成音乐，允许用户指导生成过程以产生符合特定风格或主题的音乐。

## 技术原理细节：

1、VQ-VAE：Jukebox使用了一种称为VQ-VAE（Vector Quantized Variational AutoEncoder）的技术来压缩音频数据到更低维度的表示，同时保留音乐的重要特征，如音调、音色和音量。

2、Transformer模型：在VQ-VAE的基础上，Jukebox使用Transformer模型生成新的音乐代码。这些代码随后被解码回原始音频，生成新的音乐片段。Transformer模型能够处理长期依赖问题，适合音乐这种需要长时间记忆的数据。

3、层次结构：Jukebox采用了三层VQ-VAE结构，每一层对应不同的压缩率和音频细节级别，使模型能够在不同层次上学习音乐的结构。

4、条件生成：Jukebox模型可以根据艺术家、风格和歌词等信息条件生成音乐。这是通过在训练过程中将这些信息作为附加输入实现的，使得生成的音乐能够反映出指定的特征。

5、自动歌词对齐：面对歌词数据缺乏精确对齐的挑战，Jukebox采用了一种启发式方法来估计歌词与音频之间的对应关系，以及使用先进的歌词对齐技术来提高准确性。

Tarogo Gugu Bloger