清华校友立功！谷歌发布首个全科医疗大模型，14项任务SOTA

丰色发自凹非寺

量子位 | 公众号 QbitAI

全球首个全科医疗大模型正式发布：

(资料图片)

由谷歌Research和DeepMind共同打造的多模态生成模型Med-PaLM M，懂临床语言、懂影像，也懂基因组学。

在14项测试任务中，Med-PaLM M均接近或超过现有SOTA，前提是所有任务都使用一组相同的模型权重。

而在246份真实胸部X光片中，临床医生表示，在高达40.50%的病例中，Med-PaLM M生成的报告都要比专业放射科医生的更受采纳，这表明Med-PaLM M并非“纸上谈兵”，用于临床指日可待。

对此，谷歌也自己给出了评价：

这是通用医学人工智能史上的一个里程碑。

所以，Med-PaLM M具体什么来头？

全球首个全科医疗大模型来了

在正式了解Med-PaLM M之前，我们先简单介绍谷歌自建的多模态医学测试基准MultiMedBench。

谷歌表示，在MultiMedBench之前，市面上缺乏这样一个全面的多模态医学基准。

该基准由12个开源数据集和14个单独的任务组成，用于测量通用生物医学AI执行各种临床任务的能力。

其中12个数据集共包含了六种生物医学数据模式（文本、放射学（CT、MRI和X光）、病理学、皮肤病学、乳房X光检查和基因组学），14个任务则涵盖五种类型（问题回答、报告生成和摘要、视觉问题回答、医学图像分类和基因组变体调用）。

Med-PaLM M就在上面进行了微调。

正如其名“M”代表多模态，Med-PaLM M相比之前谷歌发布的Med-PaLM、Med-PaLM-2等医疗大模型，是一个主打全科、通才的医疗AI，不仅能回答各种医学问题，还能直接看片、懂基因组学。

它的基本架构是PaLM-E（多模态语言模型），并采用ViT预训练模型作为视觉编码器，具体实现了三种组合：

-PaLM 8B+ViT 4B(PaLM-E 12B)

-PaLM 62B+ViT 22B (PaLM-E 84B)

-PaLM 540B+ViT 22B (PaLM-E 562B)

通过MultiMedBench对PaLM-E模型进行微调，并将其与生物医学领域对齐，Med-PaLM M得以诞生。以下是一些实现细节：

（1）数据集和预处理方面，将MultiMedBench中所有图像大小调整为224×224×3，同时按需使用填充来保留原始纵横比。

（2）由于谷歌的目标是训练一个通用的生物医学AI模型，使用统一的模型架构和模型参数，用多模式输入执行多个任务。为此，他们为Med-PaLM M提供了特定于各种任务的指令以及一个纯文本的“一次性示例”。

如下图所示的胸部x光解读和皮肤病变分类任务所示，这些指令有一种写提示语的味道，以“你是一个很给力的放射科助理”开头。

（3）训练过程中，作者对PaLM-E进行了端到端的微调。在多模态任务中，图像标记与文本标记交错，以形成对PALM-E模型的多模式上下文输入。对于所有微调任务，多模式上下文输入最多包含1个图像，然而Med-PaLM M能够在推理过程中处理具有多个图像的输入。

14项任务接近or超SOTA，临床战胜40%放射科医生

性能评估阶段，作者主要测试Med-PaLM M的“多面手”（即全科）能力、突发涌现能力以及放射学报告生成质量（与真实放射科医生进行对比）。

结果显示：

（1）与专业SOTA模型和无生物医学领域微调的广义模型（PaLM-E 84B）相比，Med-PaLM M在MultiMedBench上的所有任务、数据集和指标组合（共计14项）中，性能均基本接近SOTA或超过SOTA。

需要注意的是，该结果是在没有任何特定任务定制的情况下使用相同的模型权重集实现的。

（2）在scale实验中，三个不同规模的Med-PaLM M对各类任务的影响各不相同：

粗略来看，对于纯语言任务和需要调整的多模式任务来说，模型越大越好；但对图像分类和胸部X光报告生成任务来说，84B的效果比562B表现反而更好一些。

（3）零样本思维链推理能力涌现。Med-PaLM M可以通过胸部X射线图像检测没有训练过的结核病，与针对该类数据集进行专门优化过的SOTA结果相比，它的准确率已相差不大。

不过，它给出的具体报告还是存在具体错误，说明还有不足。

（4）放射性报告生成测试中，80B参数的Med-PaLM M平均有40.50%的报告比放射科医生做的更好（被临床医生采纳），而12B和562B，分别为34.05%和32.00%。

另外，遗漏和错误率测试显示，Med-PaLM M 12B和84B模型平均每份报告的遗漏率最低，为0.12，其次是562B模型为0.13。这一结果与MIMIC-CXR上人类放射科医生基线报告的相当。

多久能实用？

作为人类首个全科医学大模型，Med-PaLM M多久能投入实用，想必也是大家关心的问题。

虽然它被“自诩”为里程碑（主要是因为靠一组模型权重在各种生物医学任务上接近或超过SOTA），但谷歌也指出目前还有不少局限性待解决。

比如缺乏高质量的测试基准。谷歌表示，这是迄今为止通用生物医学人工智能发展的关键瓶颈，因为只有高质量的基准才能在很大程度上促进相关领域的发展。

而目前的MultiMedBench还存在单个数据集大小有限以及模式和任务多样性有限（比如缺乏转录组学和蛋白质组学）等问题。

再比如，扩展（scale）多模态AI模型也具有挑战性。

在语言领域，这一操作可以显著提高性能和应急能力。然而，谷歌在Med-PaLM M上的初步实验表明，由于医学数据的稀缺性，这对于生物医学任务领域的多模态广义模型来说并没有这么简单。

作者介绍

目前，谷歌仅发布了Med-PaLM M的论文。

它一共有两位共同一作，其中一位叫Tao Tu。

他本科毕业于北理工（2010年），硕士毕业于清华大学，博士为美国哥伦比亚大学，专业都是医学工程。目前已在谷歌担任软件工程师快两年。

论文地址：

https://arxiv.org/abs/2307.14334

关键词：