Refuel LLM-2：专门为数据标注、清洗设计的开源语言模型

原文见后面链接，本文主要翻译了原文

Refuel AI 最近推出了两个新版本的大语言模型 RefuelLLM-2 和 RefuelLLM-2-small。

RefuelLLM-2 和 RefuelLLM-2-small 是专门为数据标注、清洗和丰富任务而设计的语言模型。

用途： RefuelLLM-2 主要用于自动化数据标注、数据清洗和数据丰富，这些任务是处理和分析大规模数据集时的基础工作，尤其是在需要将非结构化数据转换为结构化格式的场景中。

主要功能：

高性能数据标注：该模型能自动识别和标记数据中的关键信息，如分类数据、解析特定属性等。

数据清洗：自动识别和修正数据中的错误或不一致，如拼写错误、格式问题等。

数据丰富：根据已有数据，自动补充缺失的信息或提供额外的上下文，增加数据的价值和可用性。

高准确率：在约 30 项数据标注任务的基准测试中，RefuelLLM-2（83.82%）的表现优于所有最先进的LLMs ，包括 GPT-4-Turbo（80.88%）、Claude-3-Opus（79.19%）和 Gemini-1.5-Pro（74.59%）。

‍

Results 结果

基准数据集‍

与之前推出的 Refuel LLM 相比，我们在基准测试中添加了 10 个数据集：

长上下文数据集：添加了 QuALITY 和 NaturalQuestions 等数据集，以专门评估具有长输入上下文的任务的质量。

非公开评估数据集：由于对数据（有效）的担忧，许多研究人员和从业者最近强调了仅在公共数据集上评估 LLMs 的局限性（阅读[1]、[2]、[3]）污染。为了测试LLMs在现实世界的数据标记和丰富任务上的泛化和执行效果，我们还在基准测试中添加了非公开数据集。

我们使用 Autolabel（我们的开源库，用于 LLM 支持的数据标记）来运行本报告中的所有实验。

‍

质量

输出质量衡量 LLM 生成的输出与提供的真实标签的一致性程度。

RefuelLLM-2 (83.82%) 在数据标记和丰富方面优于当前所有最先进的 LLMs，包括 GPT-4-Turbo (80.88%)、Claude-3-Opus (79.19%)和 Gemini-1.5-Pro (74.59%)

RefuelLLM-2-small (79.67%) 的性能优于具有相似大小/推理成本的 LLMs，包括 Claude-3-Sonnet (70.99%)、Haiku (69.23%) 和 GPT-3.5-Turbo (68.13%)

与我们从上述每个模型（分别为 Mixtral-8x7B、Llama3-8B）开始的基础 LLMs 相比，我们看到质量有了显着提高。‍ 长上下文数据集‍

正如基准测试部分中提到的，我们包含了一些专门用于评估长输入上下文上的 LLM 性能的数据集。

RefuelLLM-2 是 Mixtral-8x7B 基础模型，本身支持 32K 最大输入上下文长度。 RefuelLLM-2-small 是 Llama3-8B 基础模型，支持 8K 最大输入上下文长度。

在两类输入（<4K 和 >=4K 输入上下文）上，我们看到 RefuelLLM-2 的性能优于所有 LLMs。正如预期的那样，我们确实看到所有 LLMs 的长上下文输入的性能显着下降。

非公开数据集‍

正如基准部分所述，我们在非公开数据集集合上评估了所有 LLMs，涵盖招聘、金融服务、STEM 和电子商务等领域。这些数据集未用作 Refuel-LLM2 模型系列的任何训练或验证拆分的一部分。虽然将这些纳入基准会损害可重复性，但我们认为，在非公开的、特定于任务的数据集上评估 LLMs 至关重要，以便了解它们在现实环境中的可靠性和质量。

RefuelLLM-2 的卓越品质在上面所示的性能比较中得到了加强。此外，对于这两个模型来说，与各自的基础 LLMs 相比，保留数据集的质量提高很好地表明了它们的泛化能力。

‍‍

特定领域的数据集‍

为了进一步了解模型在现实环境中的可靠性和质量，我们还报告了特定行业/问题领域的数据集的LLM质量。

我们观察到，在各个垂直领域，与 GPT-4 等当前最先进的 LLMs 相比，Refuel-LLM-2 在输出质量方面具有竞争力或优越性Turbo 和 Claude-3-Opus，尺寸不到模型的 1/10。

‍

信心质量得分‍

基于我们对“置信度标签”研究的了解，我们使用平均标记生成概率作为估计 LLM 输出置信度的启发式方法。为了对这些置信度分数的质量进行基准测试，我们使用 AUROC。 AUROC 是一个总分，用于衡量分类器在所有分数阈值中区分正类（“LLM 输出正确”）和负类（“LLM 输出不正确”）的能力：

我们观察到，与 GPT-4 和 Llama-3-70B 相比，RefuelLLM-2 和 RefuelLLM-2-small 输出的校准置信度分数要好得多。该领域之前的工作表明，基于 RLHF 的 LLMs 后训练会严重损害 logprob 校准。 RLHF 训练过程可能会导致模型的输出分布与原始预训练分布之间的 KL 散度出现较大峰值。这可能会导致模型显着偏离其原始的“世界先验”，从而损害其准确估计概率的能力。请注意，Claude 和 Google 提供的模型不支持返回 token 级别的对数概率，因此没有分配给它们的分数。

‍

训练和超参数‍

我们分两个阶段训练模型。第一阶段负责使模型擅长数据标记和丰富任务，而第二阶段有助于提高较长上下文示例的性能。这两个阶段的训练都是在 8xH100 80GB GPU 集群上完成的。

第 1 阶段 - 这是模型大部分指令调整发生的阶段。用于训练的行的最大长度为 4096 个标记。我们训练模型 21k 步骤，批量大小为 32。我们使用余弦学习率调度程序，初始学习率为 1e-5，衰减至其值的 10%。

第 2 阶段 - 在此阶段，我们将更长的上下文输入添加到训练集中，进一步训练模型。我们额外训练模型 5k 步骤，批量大小为 16，梯度累积步骤为 2。我们发现模型在此阶段对学习率更加敏感，并使用余弦学习率调度程序，初始学习率为 2e-6，衰减至其值的 10%。

‍

数据集‍

虽然两个阶段使用的示例分布不同，但它们是从 2750 多个独特任务的同一集合中采样的。我们的培训系列主要包括：

人工注释的数据集，例如 Flan、Task Source 和 Aya 集合

OpenOrca、OpenHermes 和 WizardLM 等综合数据集

由 Refuel 开发或许可的专有数据集

‍

最终的指令调优数据集（在重复数据删除、采样和清理之后）由两个阶段的约 4B 个令牌组成。我们还利用多重打包，将多个序列打包到一个批次中，以提高训练吞吐量。

‍

‍查看 https://labs.refuel.ai/playground，这是一个交互式游乐场，用于针对其他 LLMs 测试模型。

我们正在 CC BY-NC 4.0 许可证下开源 RefuelLLM-2-small（又名 Llama-3-Refueled）。模型权重可在 Hugging Face 上找到：https://huggingface.co/refuelai/Llama-3-Refueled

‍

如果想详细了解，可以点开视频下方的链接。

谢谢观看本视频。要是喜欢，请订阅、点赞。谢谢

详细介绍：https://www.refuel.ai/blog-posts/announcing-refuel-llm-2

Playground：https://labs.refuel.ai/playground

模型下载：https://huggingface.co/refuelai/Llama-3-Refueled

油管：https://youtu.be/rltUgnSmJH4

Tarogo Gugu Bloger

搜尋此網誌

Refuel LLM-2：专门为数据标注、清洗设计的开源语言模型

留言

發佈留言