谷歌AI发布MedGemma-1.5：开发者开放式医疗AI模型的最新更新

谷歌研究通过发布MedGemma-1.5对其健康人工智能开发者基础计划（HAI-DEF）进行了扩展。该模型作为开源起点，旨在帮助开发者构建医学影像、文本和语音系统，并可根据当地工作流程和法规进行适配。

MedGemma是建立在Gemma之上的医疗生成模型系列。MedGemma-1.5-4B的新版本针对需要紧凑型模型但仍然能够处理真实临床数据的开发者。之前的MedGemma-1-27B模型仍然可用，针对文字较重的使用场景。

MedGemma-1.5-4B是多元模态的。它接受文本、二维图像、高维体积和整张病理图像。该模型作为健康人工智能开发者基础计划的一部分，旨在作为一个微调的基础，而不是一个现成的诊断设备。

MedGemma-1.5在处理高维影像方面进行了重大更新。该模型可以处理三维CT和MRI体积作为一系列切片，并结合自然语言提示进行处理。它还可以通过从玻片提取补丁来处理大型的病理学切片。

在内部基准测试中，MedGemma-1.5在疾病相关CT发现上的准确率从58%提高到61%，MRI疾病发现从51%提高到65%（平均计算）。对于组织病理学，单张切片案例的ROUGE L分数从0.02提高到0.49。这与特定任务的PolyPath模型的0.498 ROUGE L分数相当。

MedGemma-1.5还对图像和报告提取基准进行了改进，使其更接近生产工作流程。

MedGemma-1.5还针对文档提取。在医疗实验室报告中，当提取实验室类型、值和单位时，模型将宏观F1分数从60%提高到78%。这意味着对于开发者来说，对于半结构化的PDF或文本报告，将需要更少的基于规则的自定义解析。

在谷歌云上部署的应用现在可以直接与DICOM合作，这是放射学中使用的标准文件格式。这消除了医院系统中对自定义预处理器的需求。

MedGemma-1.5不仅是一个图像模型，它还改进了医疗文本任务的基线性能。

MedASR是和MedGemma-1.5一起发布的医学自动语音识别模型，用于解决临床工作流程中的大量口授语音问题。

MedASR使用基于Conformer的架构，在临床音频上进行预训练和微调。它针对胸片口授、放射学报告和普通医疗记录等任务。该模型可通过Vertex AI和Hugging Face上的相同健康人工智能开发者基础计划通道访问。

在与其他ASR模型Whisper-large-v3的评估中，MedASR将胸片口授的单词错误率从12.5%降低到5.2%。这相当于减少了58%的错误率。在一个更广泛的内部医学口授基准中，MedASR的单词错误率达到5.2%，而Whisper-large-v3的单词错误率则为28.2%，这相当于减少了82%的错误。

主要结论

MedGemma-1.5-4B是一个紧凑的多模态医疗模型，可处理文本、2D图像、3D CT和MRI体积以及整张病理，作为健康人工智能开发者基础计划的一部分发布，以适应本地用例。
在图像基准测试中，MedGemma-1.5将CT疾病发现从58%提高到61%，MRI疾病发现从51%提高到65%，组织病理学的ROUGE-L分数从0.02提高到0.49，与PolyPath模型的表现相匹配。
对于下游的临床任务，MedGemma-1.5将胸部ImaGenome的交并比从3%提高到38%，MS-CXR-T的宏观准确率从61%提高到66%，实验室报告提取的宏观F1分数从60%提高到78%，同时保持模型大小为4B参数。
MedGemma-1.5还加强了文本推理，将MedQA准确率从64%提高到69%，EHRQA准确率从68%提高到90%，这使得它适合作为账单摘要和EHR问答系统的骨干。
同样在此计划中的MedASR，一个基于Conformer的医学ASR模型，将胸片口授的单词错误率从12.5%降低到5.2%，在广泛的医学口授基准中将单词错误率从28.2%降低到5.2%，比Whisper-large-v3提供了针对MedGemma为中心的工作流程的领域定制语音前端。