NPJ Digit Med（IF=15.1）上海交通大学等团队：体外受精多模态智能预测模型-平芜编程栈

文献学习

今天分享的文献是由上海交通大学联合复旦大学附属妇产科医院、湖南郴州市第一人民医院、江南大学附属妇产医院等团队于2026年1月10日在《npj Digital Medicine》（中科院1区top，IF=15.1）上发表的研究“Multimodal intelligent prediction model for in vitro fertilization”即体外受精的多模态智能预测模型，该研究提出了一种名为VaTEP的多模态胚胎预测模型，整合胚胎延时摄像视频与临床表格数据，用于预测体外受精中的三个关键结局：胎心出现、单胎/多胎妊娠、流产/活产。模型通过预训练、多任务学习与跨模态融合，实现了优于传统方法和胚胎学专家的预测性能。

创新点：①多模态深度融合：设计端到端跨模态交互框架，动态融合胚胎时序视频与临床表格数据。②双任务预训练策略：通过视频重建与胚胎阶段预测预训练，增强视频编码器的时空特征提取能力。③多任务协同优化：联合预测胎儿心跳、单/多胎妊娠及流产/活产，提升模型泛化性与预测准确性。

临床价值：①辅助精准胚胎筛选：提供胎儿心跳与活产概率预测，帮助优选最具植入潜力的胚胎。②支持个体化移植决策：预测多胎妊娠风险，指导单胚胎移植，降低多胎相关并发症。③提升整体治疗效率：通过数据驱动评估，减少反复移植失败，节约医疗资源与患者身心负担。

图 4：VaTEP模型架构

a：预训练框架

输入TLS视频经帧采样生成视频子集，送入视频编码器（Video Encoder）得到帧特征；帧特征同时用于两项预训练任务：一是通过帧解码器（Frame-wise Decoder）实现视频重建，损失函数为均方误差（MSE）；二是通过帧分类器（Frame-wiseClassifier）实现胚胎发育阶段预测，损失函数为加权交叉熵；此外，重建视频会进行阶段的循环一致性预测，进一步优化特征学习。训练中交替冻结解码器和分类器，避免训练不稳定。

b：视频编码器（VideoEncoder）结构

采用“3D卷积块→Frame-wiseEncoder→Temporal Transformer”的层级结构。3D卷积块（4个残差式）实现局部时空交互、空间降维和通道扩张；Frame-wise Encoder通过通道维度的2D平均池化，将每帧特征编码为嵌入向量；Temporal Transformer实现跨时间维度的全局信息交互；在Transformer输入前添加类嵌入（class token embedding），用于后续训练中的特征聚合。

c：训练框架

分为视频分支、表格分支和融合预测三部分。①视频分支：SET输入1个TLS视频、DET输入2个TLS视频，经多帧采样生成多个子集，每个子集通过预训练的视频编码器得到类嵌入；②表格分支：临床变量分为分类变量（通过嵌入层编码）和连续变量（通过前馈神经网络FFN编码），所有变量嵌入经Table Transformer实现特征交互；③融合预测：视频子集类嵌入作为Query，临床变量嵌入作为Key和Value，通过交叉注意力模块实现深度融合，融合特征拼接后送入多任务分类器，同时输出三大结局的预测结果，损失函数为加权交叉熵（单胎/多胎、流产/活产任务采用掩码损失，仅计算FH组样本）。

研究背景及目的

研究背景

全球不孕症已成为严峻的公共健康挑战，约影响4800万对夫妇与1.86亿个体。体外受精（IVF）作为辅助生殖技术的核心，已帮助全球诞生约1000万至1300万名婴儿，但其成功率仍受限于胚胎选择的准确性。目前，临床实践中主要依赖胚胎形态学评估，尤其是通过延时摄影系统（TLS）视频记录胚胎发育过程，由胚胎学家人工观察与判断。然而，该方法存在主观性强、耗时耗力、观察者间一致性低等显著局限性，导致决策不确定性高，新鲜胚胎移植的累计妊娠率仅为32.4%。此外，IVF结局还受多种临床因素影响，如女性年龄、抗穆勒氏管激素（AMH）水平、子宫内膜厚度（ET）、体重指数（BMI）等，仅依靠形态学评估难以全面反映胚胎着床潜能与妊娠结局。尽管人工智能技术已逐步应用于胚胎筛选与结局预测，但现有研究多聚焦于单一数据源（如仅使用TLS图像或视频）或单一预测目标（如是否出现胎心），缺乏对多模态数据（视频与临床表格）的深度融合与多任务联合预测，且往往未充分利用预训练等策略提升模型表征能力。因此，开发一种能够整合胚胎动态发育信息与多维临床特征的智能预测模型，以实现更精准、个性化的胚胎选择与妊娠结局预测，成为生殖医学领域的迫切需求。

研究目的

本研究旨在开发一个名为VaTEP（Video and Table model for Embryo Prediction）的多模态智能预测模型，以应对当前IVF胚胎评估与结局预测中的关键挑战。该模型的核心目标是深度融合胚胎TLS时序视频与患者临床表格数据，并同时预测三个具有重要临床意义的结局：是否出现胎心、单胎妊娠与多胎妊娠的区分、以及流产与活产的区分。为实现这一目标，研究设计了创新的模型架构与训练策略：首先，通过两个预训练任务（TLS视频重建与胚胎发育阶段预测）来充分学习视频中蕴含的丰富时空动态与发育规律信息，增强视频编码器的表征能力；其次，采用多帧采样策略以更全面地捕捉视频内容，并设计异构编码方法以有效处理临床表格中的分类与连续变量；最终，通过跨注意力机制实现视频与表格特征的深度交互融合，并在多任务学习框架下对三个预测目标进行协同优化。本研究利用来自三家医院共9786名参与者的数据进行模型训练与验证，旨在证明VaTEP在各项预测任务上优于现有方法及胚胎学专家评估。其根本目的是为临床医生提供一个全面、数据驱动的决策支持工具，助力实现更精准的胚胎选择，优化移植策略（如推动单胚胎移植），降低移植失败、多胎妊娠及流产风险，从而推动生殖医学向更个性化、高精度与智能化的方向发展。

数据和方法

研究数据

1. 数据来源

研究对象：3家医院共9786名接受辅助生殖技术的参与者，其中医院1（郴州第一人民医院）9057人（用于预训练、训练和内部验证），医院2（无锡妇幼保健院）和医院3（贵港市人民医院）共729人（用于外部测试）。

数据类型：

模态1：胚胎TLS视频（采用Geri®全自动延时培养箱拍摄，每5分钟采集一帧，涵盖胚胎发育全程）；

模态2：临床表格数据（39个变量，包括人口学特征：年龄、BMI；激素水平：AMH、FSH、LH等；生殖指标：子宫内膜厚度ET、不孕类型等）。

2. 数据筛选与质控

排除标准：缺失临床数据/视频/妊娠结局、移植胚胎数>3、非第3天胚胎移植；

视频质控：剔除失焦、黑屏/冻结帧、分辨率<300×300或帧数<576的视频，标准化分辨率和帧率后去重；

临床数据质控：剔除不完整、错误或异常值记录，标准化单位后去重；

最终有效数据：内部数据集1012人（257例单胚胎移植SET、755例双胚胎移植DET，共1767个视频），外部数据集221人（54例SET、167例DET，共388个视频）。

3. 标注数据

目标检测标注：113个视频的1130帧（900帧训练、230帧验证），由胚胎学家标注胚胎区域；

预训练标注：5000个视频的每帧发育阶段标注（包括第二极体期、原核期、2-8细胞期等11类）。

图 2：数据筛选与质控流程

图 3：临床数据在不同亚组的分布

技术方法

1.模型架构（VaTEP）

整体框架：端到端多模态多任务模型，包含视频分支、临床表格分支、多模态融合模块和多任务分类器。

2. 关键技术

（1）预训练任务（提升视频编码器表征能力）

视频重建任务：通过解码器重构输入视频，学习胚胎时空特征；

胚胎发育阶段预测任务：预测每帧胚胎发育阶段，捕捉与活力相关的发育模式；

交替训练策略：冻结解码器训练重建任务，冻结编码器训练阶段预测任务，避免训练不稳定。

（2）多帧采样策略

对比两种采样方式：全局均匀采样（最优配置：6个子集×48帧）和分段均匀采样，全面捕捉视频信息，降低计算复杂度。

（3）临床变量编码

异质编码策略：分类变量通过嵌入层编码，连续变量通过前馈神经网络（FFN）映射为嵌入向量；

表格Transformer：实现临床变量间的特征交互。

（4）多模态融合

交叉注意力机制：视频子集类嵌入作为Query，临床变量嵌入作为Key/Value，实现深度交互融合。

（5）多任务学习

联合优化三个任务：胎心搏动（二分类）、单胎vs多胎妊娠（二分类，仅针对有胎心组）、流产vs活产（二分类，仅针对有胎心组）；

损失函数：加权交叉熵损失（解决类别不平衡），多胎/活产任务采用掩码损失（仅计算有效样本）。

3. 对比实验设计

模态对比：表格单模态、视频单模态、视频+表格多模态；

预训练对比：无预训练vs有预训练；

任务对比：单任务训练vs多任务训练；

基线模型：表格模型（MLP、LR、GBDT、TabNet）、视频模型（R(2+1)D、I3D、SlowFast、ViViT）、多模态模型（ConGraph、SFusion、DeFusion等）；

人类对照：10名胚胎学家（5名初级：1-3年经验；5名资深：>3年经验）。

4. 评价指标

主要指标：AUC（曲线下面积）、准确率（Accuracy）、F1分数；

辅助指标：敏感性、特异性、Kappa系数（评估观察者一致性）。

图 1：VaTEP模型整体构建流程

实验结果

任务	AUC（VaTEP最佳）	对比专家表现
胎心预测	0.8000 ± 0.0130	优于所有专家
单胎/多胎预测	0.8823 ± 0.0268	优于所有专家
流产/活产预测	0.9258 ± 0.0220	优于所有专家

预训练与多任务学习均显著提升性能

视频+表格融合优于单一模态

模型在SET与DET亚组中表现一致

图 5：VaTEP模型结果分析

图 6：VaTEP与专家预测的一致性与差异案例

a：预测一致的案例b：预测不一致的案例

研究结论

本研究提出并验证了多模态胚胎预测模型VaTEP，该模型创新性地融合了胚胎时差成像（TLS）视频与临床表格数据，通过双预训练任务（视频重建与胚胎阶段预测）与多任务协同学习框架，实现了对体外受精（IVF）中三个关键结局的联合预测：胎儿心跳、单胎与多胎妊娠、以及流产与活产。研究表明，VaTEP在外部测试中表现出色，其AUC分别达到0.8000（胎儿心跳）、0.8823（单/多胎妊娠）和0.9258（流产/活产），性能显著优于单一模态模型及现有先进方法，甚至超越资深胚胎学家的预测水平。该模型通过跨模态注意力机制实现视频与临床数据的深度融合，能够识别如女性年龄、AMH、FSH等关键临床变量的贡献，为胚胎选择提供了全面、数据驱动且可解释的决策支持。VaTEP不仅有助于提升胚胎选择的准确性、降低多胎妊娠与流产风险，也为实现个性化、高精度的辅助生殖治疗奠定了技术基础，展现了其在临床转化与推广中的重要潜力。

参考文献：Gao Q, Yao S, Du D, Yang F, Yu P, Quan S, Hua R, Zhao L, Shang A, Lu H, Yue C. Multimodal intelligent prediction model for in vitro fertilization. NPJ Digit Med. 2026 Jan 10. doi: 10.1038/s41746-025-02331-5.

NPJ Digit Med（IF=15.1）上海交通大学等团队：体外受精多模态智能预测模型

MySQL数据库磁盘写满后如何紧急处理_清理日志与扩容空间

SITS2026项目上线前48小时，我们用AI重写了87%的UI层代码，全过程记录，含可复用的12条校验规则

UE4材质性能优化笔记：一张贴图搞定树叶的粗糙度、透光和AO（附节点详解）

终极指南：用Windhawk轻松实现Windows系统模块化定制

AI 数据安全怎么管？迅易的 8 条使用规范

【Unity MMO模板】拆解AAA级海盗MMO框架：航海、战斗与服务器架构全揭秘