谷歌发布基于 Gemini 微调的医疗领域模型 Med-Gemini



在临床推理、多模态理解和长文本处理方面都有很大的提升。


研究人员用了14个医疗基准测试Med-Gemini的能力。


结果发现,它在10个基准上都取得了最佳表现,远超之前最强的GPT-4模型。


比如在流行的医学问答测试MedQA上,Med-Gemini达到了91.1%的准确率,比之前最好的模型高出4.6%。


Med-Gemini不仅擅长文本任务,在理解医学图像、视频、心电图等多模态数据上也很在行。它能看懂医学影像,回答相关问题。还能看医学教学视频,掌握手术操作步骤。


此外,Med-Gemini还能快速阅读冗长的病历,找出关键信息,总结患者的主要病况。在一些现实医疗任务上,比如病历摘要、转诊信撰写等,它的表现甚至超过了人类医生。


各种医疗应用的卓越表现给人工智能带来了巨大的挑战,需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。 Gemini 模型在多模式和长上下文推理方面具有强大的通用能力,为医学领域提供了令人兴奋的可能性。

基于 Gemini 的这些核心优势,我们推出了 Med-Gemini,这是一个功能强大的多模式模型系列,专门用于医学,能够无缝使用网络搜索,并且可以使用自定义编码器有效地针对新颖的模式进行定制。

在 14 个医疗基准上评估 Med-Gemini,在其中 10 个基准上建立了新的最先进 (SoTA) 性能,并在每个可以进行直接比较的基准上超越了 GPT-4 模型系列,通常是广泛的利润。

在流行的 MedQA (USMLE) 基准上, Med-Gemini 模型使用新颖的不确定性引导搜索策略,实现了 91.1% 准确率的 SoTA 性能。在包括 NEJM Image Challenges 和 MMMU(健康与医学)在内的 7 个多模态基准测试中,Med-Gemini 比 GPT-4V 提高了 44.5% 的平均相对优势。

通过从长期去识别化的健康记录和医疗视频问答中进行大海捞针检索任务的 SoTA 性能,证明了 Med-Gemini 的长上下文能力的有效性,超越了之前仅使用上下文学习的定制方法。最后,Med-Gemini 的表现表明了其在现实世界中的实用性,它在医学文本摘要等任务上超越了人类专家,同时展示了多模式医学对话、医学研究和教育的巨大潜力。 

总而言之,我们的结果为 Med-Gemini 的潜力提供了令人信服的证据,尽管在这个安全关键领域的实际部署之前,进一步严格的评估至关重要。


如果想详细了解,可以点开视频下方的链接。

谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢


论文地址:https://arxiv.org/abs/2404.18416


视频:https://youtu.be/_rGKY_3vviA

留言