1. 研究背景和意义
近年来,视觉-语言预训练(VLP)在医学图像分析领域展现出了巨大的潜力,它能够利用放射学报告中的监督信息有效地学习视觉表示,从而减少对昂贵人工标注的依赖 1。然而,目前的医学VLP研究主要集中在单模态数据(主要是2D X射线图像)上。在现实的医疗场景中,医学图像涵盖了多种模态,特别是具有不同维度的模态(如2D的X射线和3D的CT扫描)。由于缺乏成对的多维度数据(即同一患者同时拥有2D和3D图像),将VLP应用于学习统一的医学图像表示仍然是一个未解的挑战 2。解决这一问题对于综合利用多模态数据、全面理解患者健康状况具有重要的科研和临床意义。
图 1:促使在视觉语言预训练(VLP)中采用语言引导策略来整合二维和三维医学图像的观察结果。
2. 当前研究综述
在医学图像分析领域,自监督学习(SSL)技术已被广泛开发,如拼图和修复任务,近期也有研究尝试使用3D CNN架构来处理不同维度的数据,如UniMiSS和Joint框架,旨在克服维度障碍并生成通用的预训练权重 3。然而,这些方法相对较少关注不同类型医学数据之间的内在联系。在医学视觉-语言预训练方面,如Gloria和MGCA等方法通过对比图像子区域和报告文本来学习表示,在2D图像任务上表现出色,但受限于大规模3D图像-文本数据集的匮乏,其在3D领域的应用受限 4。尽管有一些尝试将3D数据转换为2D切片,但这往往导致了原始3D结