Refuel LLM-2:专门为数据标注、清洗设计的开源语言模型




原文见后面链接,本文主要翻译了原文


Refuel AI 最近推出了两个新版本的大语言模型 RefuelLLM-2 和 RefuelLLM-2-small。

RefuelLLM-2 和 RefuelLLM-2-small 是专门为数据标注、清洗和丰富任务而设计的语言模型。


用途: RefuelLLM-2 主要用于自动化数据标注、数据清洗和数据丰富,这些任务是处理和分析大规模数据集时的基础工作,尤其是在需要将非结构化数据转换为结构化格式的场景中。


主要功能:

高性能数据标注: 该模型能自动识别和标记数据中的关键信息,如分类数据、解析特定属性等。

数据清洗: 自动识别和修正数据中的错误或不一致,如拼写错误、格式问题等。

数据丰富: 根据已有数据,自动补充缺失的信息或提供额外的上下文,增加数据的价值和可用性。

高准确率: 在约 30 项数据标注任务的基准测试中,RefuelLLM-2(83.82%)的表现优于所有最先进的LLMs ,包括 GPT-4-Turbo(80.88%)、Claude-3-Opus(79.19%)和 Gemini-1.5-Pro(74.59%)。



Results 结果

基准数据集‍


与之前推出的 Refuel LLM 相比,我们在基准测试中添加了 10 个数据集:


长上下文数据集:添加了 QuALITY 和 NaturalQuestions 等数据集,以专门评估具有长输入上下文的任务的质量。

非公开评估数据集:由于对数据(有效)的担忧,许多研究人员和从业者最近强调了仅在公共数据集上评估 LLMs 的局限性(阅读[1]、[2]、[3])污染。为了测试LLMs在现实世界的数据标记和丰富任务上的泛化和执行效果,我们还在基准测试中添加了非公开数据集。

我们使用 Autolabel(我们的开源库,用于 LLM 支持的数据标记)来运行本报告中的所有实验。


质量

输出质量衡量 LLM 生成的输出与提供的真实标签的一致性程度。



RefuelLLM-2 (83.82%) 在数据标记和丰富方面优于当前所有最先进的 LLMs,包括 GPT-4-Turbo (80.88%)、Claude-3-Opus (79.19%)和 Gemini-1.5-Pro (74.59%)

RefuelLLM-2-small (79.67%) 的性能优于具有相似大小/推理成本的 LLMs,包括 Claude-3-Sonnet (70.99%)、Haiku (69.23%) 和 GPT-3.5-Turbo (68.13%)

与我们从上述每个模型(分别为 Mixtral-8x7B、Llama3-8B)开始的基础 LLMs 相比,我们看到质量有了显着提高。‍ 长上下文数据集‍



正如基准测试部分中提到的,我们包含了一些专门用于评估长输入上下文上的 LLM 性能的数据集。


RefuelLLM-2 是 Mixtral-8x7B 基础模型,本身支持 32K 最大输入上下文长度。 RefuelLLM-2-small 是 Llama3-8B 基础模型,支持 8K 最大输入上下文长度。

在两类输入(<4K 和 >=4K 输入上下文)上,我们看到 RefuelLLM-2 的性能优于所有 LLMs。正如预期的那样,我们确实看到所有 LLMs 的长上下文输入的性能显着下降。


非公开数据集‍

正如基准部分所述,我们在非公开数据集集合上评估了所有 LLMs,涵盖招聘、金融服务、STEM 和电子商务等领域。这些数据集未用作 Refuel-LLM2 模型系列的任何训练或验证拆分的一部分。虽然将这些纳入基准会损害可重复性,但我们认为,在非公开的、特定于任务的数据集上评估 LLMs 至关重要,以便了解它们在现实环境中的可靠性和质量。


RefuelLLM-2 的卓越品质在上面所示的性能比较中得到了加强。此外,对于这两个模型来说,与各自的基础 LLMs 相比,保留数据集的质量提高很好地表明了它们的泛化能力。

‍‍


特定领域的数据集‍

为了进一步了解模型在现实环境中的可靠性和质量,我们还报告了特定行业/问题领域的数据集的LLM质量。




我们观察到,在各个垂直领域,与 GPT-4 等当前最先进的 LLMs 相比,Refuel-LLM-2 在输出质量方面具有竞争力或优越性Turbo 和 Claude-3-Opus,尺寸不到模型的 1/10。

信心质量得分‍

基于我们对“置信度标签”研究的了解,我们使用平均标记生成概率作为估计 LLM 输出置信度的启发式方法。为了对这些置信度分数的质量进行基准测试,我们使用 AUROC。 AUROC 是一个总分,用于衡量分类器在所有分数阈值中区分正类(“LLM 输出正确”)和负类(“LLM 输出不正确”)的能力:




我们观察到,与 GPT-4 和 Llama-3-70B 相比,RefuelLLM-2 和 RefuelLLM-2-small 输出的校准置信度分数要好得多。该领域之前的工作表明,基于 RLHF 的 LLMs 后训练会严重损害 logprob 校准。 RLHF 训练过程可能会导致模型的输出分布与原始预训练分布之间的 KL 散度出现较大峰值。这可能会导致模型显着偏离其原始的“世界先验”,从而损害其准确估计概率的能力。请注意,Claude 和 Google 提供的模型不支持返回 token 级别的对数概率,因此没有分配给它们的分数。


训练和超参数‍

我们分两个阶段训练模型。第一阶段负责使模型擅长数据标记和丰富任务,而第二阶段有助于提高较长上下文示例的性能。这两个阶段的训练都是在 8xH100 80GB GPU 集群上完成的。


第 1 阶段 - 这是模型大部分指令调整发生的阶段。用于训练的行的最大长度为 4096 个标记。我们训练模型 21k 步骤,批量大小为 32。我们使用余弦学习率调度程序,初始学习率为 1e-5,衰减至其值的 10%。

第 2 阶段 - 在此阶段,我们将更长的上下文输入添加到训练集中,进一步训练模型。我们额外训练模型 5k 步骤,批量大小为 16,梯度累积步骤为 2。我们发现模型在此阶段对学习率更加敏感,并使用余弦学习率调度程序,初始学习率为 2e-6,衰减至其值的 10%。


数据集‍

虽然两个阶段使用的示例分布不同,但它们是从 2750 多个独特任务的同一集合中采样的。我们的培训系列主要包括:


人工注释的数据集,例如 Flan、Task Source 和 Aya 集合

OpenOrca、OpenHermes 和 WizardLM 等综合数据集

由 Refuel 开发或许可的专有数据集

最终的指令调优数据集(在重复数据删除、采样和清理之后)由两个阶段的约 4B 个令牌组成。我们还利用多重打包,将多个序列打包到一个批次中,以提高训练吞吐量。

‍查看 https://labs.refuel.ai/playground,这是一个交互式游乐场,用于针对其他 LLMs 测试模型。

注册 Refuel Cloud 以访问模型以及微调支持:https://www.refuel.ai/ https://www.refuel.ai/get-started

我们正在 CC BY-NC 4.0 许可证下开源 RefuelLLM-2-small(又名 Llama-3-Refueled)。模型权重可在 Hugging Face 上找到:https://huggingface.co/refuelai/Llama-3-Refueled


如果想详细了解,可以点开视频下方的链接。

谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢


详细介绍:https://www.refuel.ai/blog-posts/announcing-refuel-llm-2

Playground:https://labs.refuel.ai/playground

模型下载:https://huggingface.co/refuelai/Llama-3-Refueled


油管:https://youtu.be/rltUgnSmJH4

留言