基于LLAMA3构建的医疗领域的多模态模型

（自从上次看了斯坦福500页报告之后，就猛地意识到医疗领域的 AI 进展快得很）

@ICepfl 和 @YaleMed 的研究人员联手构建了 Meditron，这是一款适用于资源匮乏的医疗环境的 LLM 套件。借助 Llama 3，他们的新模型在 MedQA 和 MedMCQA 等基准测试中优于其参数类别中的大多数开放模型。

研究人员发布了 Meditron：一套为医疗领域量身定制的开源大型多模态基础模型，可以协助临床决策和诊断，旨在解决低资源环境的医疗创新难题

原模型建立在 Llama 2 上，在 Llama 3发布之后，研究团队迅速在 24 小时内微调出了全新的 8B 模型：Llama-3[8B]-MeditronV1.0

大型语言模型（LLMs）有可能使医学知识的获取民主化。尽管已经做出了许多努力来利用和提高 LLMs 的医学知识和推理能力，但所得模型要么是闭源的（例如 PaLM、GPT-4），要么是规模有限（<= 13B 参数）），这限制了他们的能力。

在这项工作中，通过发布 MEDITRON 来改善对大规模医疗 LLMs 的访问：一套开源 LLMs，具有适合医疗领域的 7B 和 70B 参数。 MEDITRON 以 Llama-2 为基础（通过我们对 Nvidia 的 Megatron-LM 分布式训练器的改编），并在全面策划的医学语料库上扩展了预训练，包括精选的 PubMed 文章、摘要和国际认可的医学指南。

使用四个主要医学基准进行的评估显示，在特定于任务的微调之前和之后，与几个最先进的基准相比，性能有了显着的提高。

总体而言，MEDITRON 比其参数类别中的最佳公共基线实现了 6% 的绝对性能增益，比我们从 Llama-2 微调的最强基线实现了 3%。与闭源LLMs相比，MEDITRON-70B 的性能优于 GPT-3.5 和 Med-PaLM，与 GPT-4 的差距在 5% 以内，与 Med-PaLM-2 的差距在 10% 以内。

发布了用于管理医疗预训练语料库和 MEDITRON 模型权重的代码，以推动功能更强大的医疗 LLMs 的开源开发。

如果想详细了解，可以点开视频下方的链接。

谢谢观看本视频。要是喜欢，请订阅、点赞。谢谢

链接：https://meditron-ddx.github.io/llama3-meditron.github.io/

视频：https://youtu.be/WuXjBf5kATA

Tarogo Gugu Bloger

搜尋此網誌

基于LLAMA3构建的医疗领域的多模态模型

留言

發佈留言