多模态大模型在医疗领域的应用难以取得重大突破

Posted by li3huo on Sunday, June 30, 2024

今天在知乎上看了一篇文章¹，文章介绍了多模态大模型在医疗领域的应用现状和面临的挑战，说多模态大模型在医疗领域虽然有潜力，但目前仍然面临微小目标识别、医生报告语义模糊和风格不一、以及医生标注不可完全依赖等难题，导致在医疗辅助诊断中难以取得重大突破。

文章首先介绍了大语言模型和图文多模态大模型的快速发展，以及它们在医学领域的一些关键进展，如 Med-PaLM 2 和 ChatGPT 在医学影像解读方面的应用。然而，作者认为在当前的技术和数据储备下，多模态大模型在医疗辅助诊断领域仍然难以依靠规模效应(scaling law)取得重大突破。

技术架构

多模态大模型在医疗辅助诊断应用中包括多模态嵌入模块、跨模态注意力机制和解码器。

在医学应用中，这些模型能够进行智能读片，自动生成报告，并与用户进行交互。

但是，多模态大模型在处理医学影像时面临着微小目标识别的挑战，例如

在 CT 图像中识别几毫米大小的结节，只依靠视觉模型本身的检测能力，与是否采用大模型和多模态无关；
医生报告的语义模糊和风格不一，要让大模型从这些报告中学习，前提是模型必须熟悉各种解剖位置，这本身就是一个不小的挑战；缺乏一致的诊断标准，不同医院的医生在诊断标准上存在显著差异，这些都使得模型的训练和应用变得复杂；
医生的标注不可完全依赖，不同医院的医生在诊断标准上存在显著差异，且漏标现象严重。因此，医疗 AI 公司通常需要大量的高质量数据来训练模型，这一过程非常耗时且成本高昂

发展路径

在医学教学、科研场景等低犯错成本、高数据来源异质性的情景中使用可能更为合适。

作者强调，AI 在医疗领域的应用应该更多地是做医生所不能做的事情，而不是仅仅模仿医生的诊断行为。

多模态大模型为什么还做不了医疗廖方舟，清华大学生物医学工程博士 ↩︎