Int J Surg华中科技大学同济医学院附属协和医院：可解释机器学习模型预测胰腺癌早期复发：整合瘤内瘤周影像组学及身体成分分析-平芜编程栈

文献信息

本次分享文献是由华中科技大学同济医学院附属协和医院放射科郑传胜教授团队联合广东省人民医院放射科、武汉科技大学附属老年医院放射科等多中心合作团队近日（2025年7月15日）在《International Journal of Surgery》（中科院2区，IF=10.1）上发表的研究“Interpretable Machine Learning Model for Predicting Early Recurrence of Pancreatic Cancer: Integrating Intratumoral and Peritumoral Radiomics With Body Composition”即可解释机器学习模型预测胰腺癌早期复发：整合瘤内与瘤周影像组学及身体成分分析，该研究为多中心回顾性研究，纳入2014年6月-2023年12月4家医院的589例胰腺导管腺癌（PDAC）根治术后患者，通过整合“肿瘤内+肿瘤周围CT影像组学特征”与“CT量化身体成分参数”，结合6种机器学习算法构建早期复发（ER，术后1年内复发）预测模型，并利用SHAP方法提升模型可解释性。结果显示，基于随机森林（RF）的“肿瘤内-周围影像组学模型”及整合临床病理因素的“联合模型”表现最优，可为PDAC术后个性化管理提供精准工具。

Fig.1：研究工作流程图

A.数据准备（DataPreparation）：①纳入4家医院数据集；②人工分割肿瘤内/周围区域以定义感兴趣区（VOIs）；③提取肿瘤内/周围影像组学特征；④收集临床病理特征（如CA199、TNM分期、身体成分指标等）。

B.模型构建（ModelConstruction）：①对肿瘤内、肿瘤周围、肿瘤内-周围影像组学特征分别进行筛选；②整合临床因素，采用6种机器学习算法（LR、SVM、RF、ExtraTrees、LightGBM、MLP）构建4类模型（影像组学、临床、临床-影像组学、临床病理-影像组学）。

C.模型验证（ModelValidation）：①对3类影像组学模型（肿瘤内、肿瘤周围、肿瘤内-周围）进行内部（训练集7:3拆分）与外部（独立中心）验证；②采用AUC（ROC曲线下面积）、校准曲线（拟合度）、决策曲线（临床效用）评估模型性能。

D.模型解释（ExploringExplainability）：①应用SHAP方法解析模型；②分析特征重要性、特征对预测结果的贡献、影像组学与临床特征的交互作用，明确模型决策逻辑。

研究背景及目标

研究背景

疾病困境：PDAC是恶性程度最高的肿瘤之一，5年生存率仅12%；仅20%患者确诊时可根治性手术，术后仍有50%患者1年内早期复发，是长期生存率低（20%-30%）的核心原因。

现有不足：缺乏可靠的ER预测系统；传统CT依赖视觉评估，无法充分挖掘肿瘤异质性；影像组学研究多聚焦肿瘤内区域，忽视肿瘤周围微环境的预后价值；身体成分（营养代谢指标）是复发风险因素，但常被排除在预测模型外；机器学习模型虽预测能力强，但存在“黑箱”问题，临床信任度低。

研究契机：需开发整合多维度特征、可解释的机器学习模型，填补PDAC术后ER预测的临床空白。

研究目标

开发并验证整合“肿瘤内+肿瘤周围CT影像组学”与“CT量化身体成分”的机器学习模型，预测PDAC根治术后ER风险；

通过SHAP方法解析模型决策逻辑，提升可解释性，推动模型向临床转化；

对比不同算法与模型（影像组学、临床、临床-影像组学、临床病理-影像组学）的性能，筛选最优预测方案。

数据和方法

研究数据

数据来源：4家医院，2014年6月至2023年12月

患者数量：共589例，分为：

训练集：320例

内部验证集：138例

外部验证集：131例

数据类型：术前CT图像、临床资料、术后病理、身体成分指标（VFI、VSR等）

结局指标：早期复发（ER，术后1年内复发）

技术方案

影像处理：使用ITK-SNAP手动勾画瘤内与瘤周ROI，提取1106个影像组学特征。

特征选择：ICC > 0.75保留，mRMR + LASSO进一步降维。

模型构建：6种ML算法（LR, SVM, RF, ExtraTrees, LightGBM, MLP）构建4类模型：

纯影像组学模型

临床模型

临床-影像组学融合模型

临床病理-影像组学组合模型

可解释性：使用SHAP分析特征贡献度。

验证方式：内部+外部验证，5折交叉验证。

实验结果图

Fig.2：内部验证队列中不同影像组学模型的性能雷达图

对比“肿瘤内影像组学模型（Intra）”“肿瘤周围影像组学模型（Peri）”“肿瘤内-周围影像组学模型（IntraPeri）”在内部验证队列中，基于6种算法的6项性能指标：AUC（ROC曲线下面积）、ACC（准确率）、SEN（灵敏度）、SPE（特异度）、PPV（阳性预测值）、NPV（阴性预测值），子图对应算法如下：

A：逻辑回归（LR）；B：支持向量机（SVM）；C：随机森林（RF）；D：极端随机树（ExtraTrees）；E：轻量级梯度提升机（LightGBM）；F：多层感知机（MLP）。

关键结果

无论采用何种算法，IntraPeri模型性能均优于Intra模型与Peri模型，尤其在AUC、SEN、NPV指标上优势显著；

6种算法中，RF算法的IntraPeri模型表现最优：AUC达0.849，ACC0.812，SEN0.841，SPE0.783，PPV0.795，NPV0.831，各指标均处于雷达图最外层；

LR、MLP算法的整体性能较弱，即使是IntraPeri模型，AUC也低于0.75。

Fig.3：外部验证队列中不同影像组学模型的性能雷达图

同Fig.2的模型与算法对比框架，但数据来源为外部验证队列（独立中心，131例患者），同样评估AUC、ACC、SEN、SPE、PPV、NPV6项指标，子图对应算法与Fig.2完全一致（A-LR至F-MLP）。

关键结果

趋势与内部验证队列一致：IntraPeri模型性能始终优于Intra、Peri模型，且RF算法的IntraPeri模型仍为最优；

RF-IntraPeri模型在外部验证中的性能：AUC0.839，ACC0.771，SEN0.847，SPE0.708，PPV0.704，NPV0.850——虽较内部验证略有下降（如AUC从0.849降至0.839），但仍保持高预测能力，证明模型泛化性良好；

其他算法（如SVM、LightGBM）的IntraPeri模型在外部验证中AUC约0.81，低于RF，但高于LR、MLP。

Fig.4：不同模型的校准曲线与决策曲线

对比4类模型（临床模型、影像组学模型、临床-影像组学模型、联合模型（临床病理-影像组学））在训练集、内部验证集、外部验证集中的“拟合度”（校准曲线）与“临床效用”（决策曲线）：

A-C.校准曲线（Calibrationcurves）：x轴为“模型预测的早期复发概率”，y轴为“实际观察到的早期复发概率”，对角线代表“预测与实际完全一致”；曲线与对角线的贴合度越高，模型拟合度越好，同时标注拟合优度p值。

D-F.决策曲线（Decisioncurves）：x轴为“阈值概率”（临床决策中判定为“高风险”的临界值），y轴为“净获益”（真阳性获益减去假阳性损失）；曲线越靠上，代表在该阈值范围内模型的临床实用价值越高。

关键结果

校准曲线（A-C）：

联合模型在三个队列中拟合度最优：训练集p=0.674，内部验证集p=0.372，外部验证集p=0.217（p值越大，与实际越贴合）；

临床模型拟合度最差，尤其在外部验证集p=0.013（显著偏离对角线，预测偏差大）。

决策曲线（D-F）：

联合模型在广泛阈值范围内（训练集0.0-1.0、内部验证集0.0-0.85、外部验证集0.0-0.8）净获益最高，且显著高于“所有患者均判定为复发”“所有患者均判定为无复发”的极端策略；

影像组学模型、临床-影像组学模型的净获益次之，临床模型最低。

Fig.5：SHAP全局模型解释图

基于SHAP方法解析联合模型的全局决策逻辑，聚焦“特征重要性”与“特征-风险关联”：

A.SHAP条形图（Barplot）：x轴为“平均绝对SHAP值”（值越大，特征对预测结果的贡献越显著），y轴为预测特征（如影像组学特征、辅助治疗、CA199、LVI等），展示特征重要性排序。

B.SHAP小提琴图（Violinplot）：x轴为“SHAP值”（正SHAP值增加ER风险，负SHAP值降低ER风险），y轴为特征；每个特征对应一个“小提琴分布”，颜色梯度代表特征值（红色=高特征值，蓝色=低特征值），展示特征值与SHAP值的关联分布。

C-D.SHAP依赖图（Dependenceplot）：

C图：x轴为“影像组学特征值”，y轴为“影像组学特征的SHAP值”，颜色代表“辅助治疗”（分类变量：有/无），展示影像组学特征与ER风险的关系及辅助治疗的交互作用；

D图：x轴为“内脏脂肪指数（VFI）值”，y轴为“VFI的SHAP值”，颜色代表“影像组学特征值”，展示VFI与ER风险的关系及影像组学特征的交互作用。

关键结果

特征重要性（A图）：肿瘤内-周围影像组学特征贡献最大（平均绝对SHAP值0.25），其次为辅助治疗、CA199、淋巴血管侵犯（LVI）、血小板-淋巴细胞比值（PLR）、VFI、CA125等。

特征-风险关联（B图）：高影像组学特征值、无辅助治疗、高CA199、LVI阳性、高PLR、高VFI均对应“正SHAP值”，显著增加ER风险；低特征值则对应“负SHAP值”，降低ER风险。

交互作用（C-D图）：

C图：影像组学特征值越高，SHAP值越高（ER风险越高）；且“无辅助治疗”患者（特定颜色）的SHAP值增幅更显著；

D图：VFI值越高，SHAP值越高（ER风险越高）；且“高影像组学特征值”患者（特定颜色）的SHAP值增幅更显著。

Fig.6：SHAP局部模型解释图

通过具体病例展示联合模型的个体预测逻辑，聚焦“单患者风险贡献”：

A-B.低危患者（无ER）：

A图：瀑布图（Waterfallplot）：x轴为“预测概率”，从“基线概率”（全队列平均ER概率50.1%）开始，依次叠加各特征的“SHAP贡献值”（蓝色=降低风险，红色=增加风险），最终得到“患者实际预测概率”（18.0%）；

B图：力图（Forceplot）：结构与瀑布图一致，以“箭头方向”（左=降低风险，右=增加风险）直观展示特征贡献。

C-D.高危患者（有ER）：

C-D图结构同A-B，但患者最终预测概率为99.9%（远高于基线50.1%），红色特征（如无辅助治疗、高CA199、LVI阳性）贡献显著。

E.训练集力图（Forceplotfortrainingset）：x轴为“训练集患者”，y轴为“特征贡献”；每个患者对应一组“红蓝线段”（红色=增加ER风险，蓝色=降低ER风险），线段越长，贡献越显著；红色占比越高，患者ER预测概率越高。

关键结果

低危患者（A-B）：影像组学特征（蓝色）、有辅助治疗（蓝色）、低CA199（蓝色）、TNM≤IIA期（蓝色）是“降低风险”的核心因素；LVI阳性（红色）、高PLR（红色）虽增加风险，但整体被“保护因素”抵消，最终预测概率18.0%。

高危患者（C-D）：无辅助治疗（红色）、高CA199（红色）、高影像组学特征值（红色）、LVI阳性（红色）是“增加风险”的核心因素，且贡献远大于“保护因素”，最终预测概率99.9%。

全训练集（E图）：ER患者（已知结局）的红色线段占比显著高于无ER患者，证明模型预测与实际结局高度匹配。

讨论

创新点与技术亮点

多维度整合：突破单一肿瘤视角，纳入患者全身代谢状态（脂肪/肌肉分布）；

可解释AI：SHAP揭示"内脏脂肪堆积→促炎微环境→肿瘤复发"的生物学通路；

方法学严谨性：1000次Bootstrap验证特征稳定性 + 双中心外部验证。

局限性

回顾性设计：可能存在选择偏倚（如排除新辅助化疗患者）；

单时间点CT：未动态监测术后身体成分变化对复发的影响；

泛化性挑战：外部验证仅来自中国患者，需欧美队列验证。

临床价值

风险分层工具：预测概率>90%患者可提前启动二线治疗；

营养干预靶点：提示控制内脏脂肪或成辅助治疗新方向（如代谢手术联合化疗）。

未来方向

前瞻性验证模型在真实世界的临床效用；

探索影像组学特征与分子标志物（如KRAS突变）的关联机制。

该研究通过多模态数据融合和可解释AI技术，构建了PDAC术后早期复发的高精度预测模型（AUC>0.88），其创新性在于揭示"身体成分-肿瘤微环境-复发风险"的关联，为胰腺癌精准医疗提供了新工具。成果发表于外科顶刊International Journal of Surgery，彰显临床转化潜力。

Int J Surg华中科技大学同济医学院附属协和医院：可解释机器学习模型预测胰腺癌早期复发：整合瘤内瘤周影像组学及身体成分分析

【c++面向对象编程】第36篇：析构函数应永远不抛出异常——原因与最佳实践

3分钟免费汉化Android Studio：社区中文语言包完整安装教程

大模型如何推理：从分词到答案一秒之内的旅程

Agent 的上下文窗口管理：一个被低估的工程难题

Java 继承与高级特性精讲：继承实现、方法重写、类型转换与多态实战

用Go从零实现一个高性能KV存储引擎：B+Tree索引、WAL持久化、LRU缓存的工程实践