Mistral AI 和NVIDIA 发布 Mistral NeMo 12B



英伟达Mistral AI联袂出击,120亿小模型王者强势登场,碾压Llama 3单张4090可跑


Mistral AI 宣布发布 Mistral NeMo,这是一个由 NVIDIA 协作开发的 12B 参数模型,具备高达 128k 令牌的上下文窗口。

该模型旨在支持企业应用,包括聊天机器人、多语言任务、编码和摘要。在其尺寸类别中,Mistral NeMo 在推理、世界知识和代码准确性方面均处于领先地位。使用标准架构,Mistral NeMo 易于使用,可作为任何使用 Mistral 7B 系统的直接替代品。


为了鼓励采用和进一步研究,Mistral AI 已根据 Apache 2.0 许可证提供了预训练基础和指令调优检查点。这种开源方法可能会吸引研究人员和企业,从而加速该模型在各种应用中的集成。


Mistral NeMo 的一个关键特性是在训练过程中对量化的意识,这使得 FP8 推理得以实现而不影响性能。这一能力对于希望高效部署大型语言模型的组织来说可能至关重要。


Mistral AI 提供了 Mistral NeMo 基础模型与两个最近的开源预训练模型:Gemma 2 9B 和 Llama 3 8B 之间的性能比较。


Mistral NeMo 引入了 Tekken,这是一种基于 Tiktoken 的新标记器。Tekken 在超过 100 种语言上进行训练,相比于之前 Mistral 模型中使用的 SentencePiece 标记器,提供了更好的自然语言文本和源代码的压缩效率。公司报告称,Tekken 在压缩源代码和几种主要语言方面的效率提高了约 30%,对于韩语和阿拉伯语的提升更为显著。


Mistral AI 还声称,Tekken 在文本压缩方面优于 Llama 3 标记器,适用于约 85% 的所有语言,这可能使 Mistral NeMo 在多语言应用中占据优势。


该模型的权重现在可以在 HuggingFace 上获取,包括 基础 和 指令 版本。开发人员可以使用 mistral-inference 工具开始实验 Mistral NeMo,并通过 mistral-finetune 进行调整。对于使用 Mistral 平台的用户,该模型以 open-mistral-nemo 的名称提供。


为了致敬与 NVIDIA 的合作,Mistral NeMo 还作为 NVIDIA NIM 推理微服务进行打包,通过 ai.nvidia.com 提供。这一集成可能会简化已经投资于 NVIDIA AI 生态系统的组织的部署。


Mistral NeMo 的发布代表了在先进 AI 模型民主化方面的重要进展。通过结合高性能、多语言能力和开源可用性,Mistral AI 和 NVIDIA 正在将该模型定位为广泛应用于各个行业和研究领域的多功能工具。


如果想详细了解,可以点开视频下方的链接。

谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢


官方介绍:https://mistral.ai/news/mistral-nemo


油管:https://youtu.be/QnyTgGxAepQ


留言