【文献分享】MedMPT一种用于多种临床呼吸系统疾病应用的视觉语言预训练转换器-平芜编程栈

文章目录

- 介绍
- 代码
- 参考

介绍

通用人工智能模型在应用于临床实践中的多种模态和复杂临床任务时面临独特的挑战。在此，我们介绍了 MedMPT，这是一个面向临床、专为呼吸系统医疗保健设计的多功能预训练模型，基于 154,274 对胸部计算机断层扫描图像和放射学报告进行训练。MedMPT 采用自监督学习来获取医学见解，能够处理多模态临床数据，并支持与临床工作流程相契合的各种临床任务。我们在涉及常见医学模态（如计算机断层扫描图像、放射学报告、实验室检测和药物关系图）的广泛胸部相关病理状况上评估了 MedMPT 的性能。MedMPT 在医疗领域的多模态预训练模型中始终表现卓越，在各种临床任务中取得了显著进步。深入分析表明，MedMPT 能够有效利用医学数据的潜力，展现出数据和参数效率，并为决策提供可解释的见解。MedMPT 突显了多模态预训练模型在临床实践通用人工智能领域的潜力。

肺部疾病，包括影响胸部的多种病理状况，如慢性阻塞性肺疾病、下呼吸道感染和肺癌等，是全球范围内导致疾病和死亡的主要原因。及时诊断和管理对于提高医疗服务质量和患者预后至关重要。先前的研究表明，人工智能（AI）有可能推进肺部疾病的诊断和管理，例如通过基于胸部计算机断层扫描（CT）图像的肺癌筛查以及生成胸部 X 光片的放射学报告，从而提高医疗保健的有效性和效率。从临床角度来看，肺部疾病的诊断和管理存在诸多复杂性，这源于这些疾病的多样性以及所涉及的复杂医疗保健系统，需要综合考虑多种因素（如病史、体格检查、影像学和实验室检查），并需要多学科协作，包括呼吸科医生、放射科医生和肿瘤科医生。然而，目前能够全面分析多种模态、准确提供医疗见解以辅助决策，并在统一框架内广泛支持临床工作流程中各类任务的人工智能研究十分有限，这导致现有模型在实际应用中的可靠性差，临床转化面临诸多挑战。因此，克服这些局限性，开发一种与临床工作流程相契合的通用模型以改善肺部疾病患者的治疗效果并提高医疗系统的效率至关重要。
近期，诸如 ChatGPT4 和 SAM5 等大型预训练模型取得了显著进展，展现出令人瞩目的通用性和灵活性，突显了通用型人工智能模型的重要性。通过从海量数据中学习通用知识，这些预训练模型能够有效且高效地适应各种下游任务，无需为每个特定任务收集和标注大量数据。预训练人工智能模型的这些优势对医疗领域颇具吸引力，为缓解大量标注需求带来的挑战以及满足医疗保健领域对增强通用性的需求提供了解决方案。
然而，现实世界中临床工作流程的复杂程度超出了预期，因为所涉及的数据类型以及临床实践中的任务种类要丰富得多，这使得现有的预训练人工智能模型在医学领域的潜力尚未得到充分挖掘。大多数现有的医学预训练模型都是对通用领域预训练模型的改编，这些模型经过了医学数据的微调。这些模型主要关注涉及图像数据9、10、11或文本数据8、12、14的任务。相比之下，医学数据本身涵盖了多种模态15，例如 CT 图像、医学文本、电子记录、实验室检测、基因组学和药物相互作用关系。在临床实践中，专家们会综合各种模态的信息，全面评估患者的临床状况并执行复杂的临床任务。因此，整合多种异构模态对于全面、深入的医疗分析至关重要。现有医学模型与现实世界临床工作流程之间的另一个差距在于它们所支持的下游任务类型。现有的预训练模型主要关注临床工作流程中孤立部分的任务，例如通用病变分割 9,10、多种疾病诊断 11 或回答通用医疗问题 8。然而，在现实世界的临床工作流程中，所涉及的任务要多样得多、连续且连贯，涵盖从患者入院到出院的各个阶段。例如，在疑似肺癌患者的临床工作流程中，临床医生通常会安排 CT 成像和生化检查，放射科医生会解读 CT 图像并提供报告。这使得临床医生能够根据检查结果全面评估患者的病情，并给出初步诊断和医疗建议，可能包括开药或建议进一步的检查，如穿刺活检或手术 16。因此，我们认为，目前的大多数工作主要集中在数据和技术驱动的验证任务上，未能涵盖整个临床工作流程，也未能满足真正的临床需求。现有医学预训练模型在支持的模态和任务方面存在局限性，这凸显了开发更有效、实用且与临床紧密结合的人工智能模型的必要性，这些模型能够分析多种医学数据模态，并支持广泛的临床任务。