谷歌:个人健康大语言模型和智能体研究

 




摘要原文

大型语言模型(llm)可以对广泛的信息进行检索、推理和推断。在健康方面,迄今为止,大多数LLM工作都集中在临床任务上。
然而,很少整合到临床任务中的移动和可穿戴设备为个人健康监测提供了丰富、连续和纵向的数据来源。本文提出一个新模型,个人健康大型语言模型(PH-LLM),一个经过微调的Gemini版本,用于对数字时间序列个人健康数据的文本理解和推理,用于睡眠和健身应用。
为了系统地评估PH-LLM,我们创建并策划了三个新的基准数据集,以测试
1)从测量的睡眠模式、身体活动和生理反应中产生的个性化见解和建议,
2)专家领域知识,以及
3)自我报告的睡眠质量结果的预测。
对于洞察和建议任务,我们创建了857个关于睡眠和健身的案例研究。这些案例研究是与领域专家合作设计的,代表了现实世界的场景,并强调了模型在理解和指导方面的能力。
通过对特定领域rubrics的人工和自动综合评估,我们观察到Gemini Ultra 1.0和PH-LLM与专家在健身方面的表现没有统计学差异,虽然专家在睡眠方面仍然优于专家,但微调PH-LLM在利用相关领域知识和个性化信息方面有显著提升。
为了进一步评估专家领域知识,我们评估了PH-LLM在睡眠医学和健身多项选择题考试中的表现。
phd - llm在睡眠(N=629个问题)和健身(N=99个问题)方面取得了79%的成绩,两者都超过了人类专家样本的平均分数,以及在这些领域获得持续信用的基准。为了使PH-LLM能够预测睡眠质量的自我报告评估,
我们对模型进行了训练,以从可穿戴传感器数据的文本和多模态编码表示中预测自我报告的睡眠中断和睡眠损害结果。
证明了多模态编码对于匹配一套判别模型的性能来预测这些结果既是必要的,也是充分的。尽管在安全关键的个人健康领域需要进一步的开发和评估,但这些结果证明了Gemini模型的广泛知识库和能力,以及与PH-LLM一样,将生理数据用于个人健康应用的好处。

更多详细信息,可以浏览视频下方的链接
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

Paper:https://arxiv.org/abs/2406.06474
油管:https://youtu.be/Qd67AW6OUdA

留言