1. 研究背景和意义
医学图像的精确解读对于疾病的早期发现、诊断和治疗至关重要 。近年来,基于深度学习的模型在医学图像分析领域(如解剖结构分割、病灶定位、跨模态图像合成等)展现了强大的能力 。然而,现有的模型大多为“专家模型”(Specialist Models),通常针对特定的任务、模态或解剖区域进行定制 。这种专业化虽然在特定场景下表现优异,但在面对新任务或多领域数据训练时,性能往往会大幅下降 。因此,开发一种只需单次训练即可广泛应用于多种医学任务的通用人工智能模型(Generalist AI Models),对于提升医学影像分析的灵活性和泛化能力具有重要的科研与临床意义 。
图1:医学视觉通才使单个模型能够对三个主要身体部位的四种医学成像模态的图像执行四种类型的医学视觉任务。
2. 当前研究综述
在医学图像分析领域,早期的成功主要集中在特定的分割网络上,如U-Net、nnU-Net以及结合ViT的TransUnet等,它们在特定任务上表现出色 。近期,研究重心开始向通用医学AI模型转移,例如MedSAM和UniverSeg试图统一医学分割任务,BiomedGPT则探索了视觉-语言任务的统一生成模型 。与此同时,在自然语言处理(NLP)和计算机视觉(CV)领域,通用模型和上下文学习(In-Context Learning)取得了巨大成功,如GPT-3、Flamingo以及视觉领域的Pai