今天在知乎上看了一篇文章1,文章介绍了多模态大模型在医疗领域的应用现状和面临的挑战,说多模态大模型在医疗领域虽然有潜力,但目前仍然面临微小目标识别、医生报告语义模糊和风格不一、以及医生标注不可完全依赖等难题,导致在医疗辅助诊断中难以取得重大突破。
文章首先介绍了大语言模型和图文多模态大模型的快速发展,以及它们在医学领域的一些关键进展,如 Med-PaLM 2 和 ChatGPT 在医学影像解读方面的应用。然而,作者认为在当前的技术和数据储备下,多模态大模型在医疗辅助诊断领域仍然难以依靠规模效应(scaling law)取得重大突破。
技术架构
多模态大模型在医疗辅助诊断应用中包括多模态嵌入模块、跨模态注意力机制和解码器。
在医学应用中,这些模型能够进行智能读片,自动生成报告,并与用户进行交互。
但是,多模态大模型在处理医学影像时面临着微小目标识别的挑战,例如
- 在 CT 图像中识别几毫米大小的结节,只依靠视觉模型本身的检测能力,与是否采用大模型和多模态无关;
- 医生报告的语义模糊和风格不一,要让大模型从这些报告中学习,前提是模型必须熟悉各种解剖位置,这本身就是一个不小的挑战;缺乏一致的诊断标准,不同医院的医生在诊断标准上存在显著差异,这些都使得模型的训练和应用变得复杂;
- 医生的标注不可完全依赖,不同医院的医生在诊断标准上存在显著差异,且漏标现象严重。因此,医疗 AI 公司通常需要大量的高质量数据来训练模型,这一过程非常耗时且成本高昂
发展路径
在医学教学、科研场景等低犯错成本、高数据来源异质性的情景中使用可能更为合适。
作者强调,AI 在医疗领域的应用应该更多地是做医生所不能做的事情,而不是仅仅模仿医生的诊断行为。
-
多模态大模型为什么还做不了医疗 廖方舟,清华大学 生物医学工程博士 ↩︎