news 2026/5/11 4:51:37

双重机器学习与公卫研究,这种因果推断新范式论文你见过吗?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
双重机器学习与公卫研究,这种因果推断新范式论文你见过吗?

源自风暴统计网:一键统计分析与绘图的网站

浙江大学医学院公共卫生学院宋培歌研究员团队在《Child Abuse & Neglect》发表了一项因果推断研究论文。研究思路如下:

  • 采用双重机器学习,量化了不良童年经历(ACE)对流产、抑郁、焦虑及共病(同时发生焦虑和抑郁)的潜在因果效应。

  • 为了检验治疗效果的异质性,进行了亚组和异质性分析。

  • 使用因果森林方法估计条件平均治疗效应(CATE),以捕获ACE效应的个体水平变化。

  • 进行了因果中介分析以评估妊娠流产的中介作用。

用双重机器学习+因果森林+因果中介分析开展公卫研究,值得一学,我们详细解读一下!

双重机器学习开展因果推断

研究旨在探讨不良童年经历对流产、抑郁、焦虑和共病的潜在因果关系,并评估妊娠流产的中介作用。

为了估计与ACE对妊娠流产数量和心理健康结果的因果解释一致的影响,研究者采用了Chernozhukov等人(Chernozhukov等人,2018)提出的双重机器学习(DML)框架。该分析使用R软件包“DoubleML”(Bach等人,2024)进行。

双重机器学习DML

DML是一种因果推断方法,但并非一个单一的算法,而是一个理论框架。

其核心思想是:利用机器学习模型来估计并剔除“滋扰参数”(Nuisance Parameters)的影响,从而使对目标因果参数的估计对滋扰模型的估计误差不敏感。

它将机器学习算法与奈曼正交化(Neyman Orthogonality)和交叉拟合相结合,以减少估计偏差并提高在处理复杂和潜在非线性混淆结构时的稳健性。

通俗来讲,DML可以通过正交化和交叉拟合技术,利用任意机器学习模型来处理高维混杂变量,从而获得稳健的因果效应估计。

研究的主要参数是平均治疗效果(ATE),它量化了ACE对流产、抑郁、焦虑及其合并症的潜在因果影响。

另外,研究者实施了一个五折交叉拟合程序,以确保正交性和最小化过拟合。对包括Lasso、随机森林和XGBoost在内的机器学习算法进行了评估,用于评估滋扰函数,并选择了性能最佳的模型进行主要分析。

结果显示,随机森林模型始终表现出优越的预测性能,通常产生最高的AUC和最低的MSE。因此,我们选择使用随机森林算法从DML框架导出的结果作为我们的主要发现。

每个模型在所有处理变量和结局变量上的out-of-sample AUC和MSE

ACE暴露显著增加流产,以及抑郁、焦虑和共病的概率。

使用随机森林算法从DML中得出的ACE对流产、抑郁、焦虑以及共病的估计ATE

另外,为了评估估计的因果效应的稳健性,将原始随机森林模型的ATEs与使用Lasso和XGBoost算法获得的ATEs进行了比较。

结果显示,ACE与所有四种结果之间关联的方向、幅度和显著性在三种机器学习模型中基本一致。这种跨算法发现的趋同强化了主要结果的稳健性。

比较三种机器学习算法(Random Forest、Lasso、XGBoost)ATE 估计值

处理效应异质性分析

为了检验处理效应的异质性(HTE),研究者按年龄和教育程度进行了亚组分析。

此外,使用因果森林方法估计条件平均治疗效应(CATE),以捕获ACE效应的个体水平变化(Wager & Athey, 2018)。

关于处理效应异质性(HTE)和条件平均治疗效应(CATE)的概念,我们曾写过推文介绍,感兴趣的朋友可以看看。

现在,是该了解 "处理效应异质性"(HTE)的概念与方法的时候了

Out了! 临床研究亚组分析,现在有两个新的概念:HTE、CATE

顶刊论文的亚组分析森林图如何绘制?| 处理效应异质性(HTE)分析方法

异质性分析显示:

  • 对于流产,受教育程度较低的女性的相关性更强。例如,暴露于任何ACE显著增加初等教育组的流产数量,而高学历组的影响较弱且不显著。

  • 对流产次数的影响也集中在45岁以上的女性中,而在≤45岁的女性中无统计学意义。

  • 就心理健康结果而言,受过初等教育的妇女的影响始终更大。

  • 然而,与流产不同的是,对年轻妇女(≤45岁)心理健康的不利影响更为明显。

热力图展示了基于随机森林的双重机器学习模型中,按年龄和教育水平定义的亚组估计的 ATE

因果森林模型证实了所有结果存在显著的个体水平异质性。

在参与者中,有很大比例的流产CATEs呈阳性,这表明对有意义的个体子集而言,风险直接增加。在心理健康方面,CATEs也有很大差异,突出了个体对ACEs的不同易感性。

这些异质性模式在ACE评分和所有ACE亚型中是一致的。

任何不良童年经历对流产次数和心理健康结果影响的个体水平异质性

因果中介分析

为了评估妊娠流产是否在ACEs与心理健康结果之间起中介作用,采用“ mediation ” R包进行因果中介分析(Tingley et al., 2014)。估计了直接和间接效应,以及通过妊娠流产介导的总效应的比例。

研究发现,妊娠流产数与抑郁、焦虑以及共病显著相关,随机森林、Lasso和XGBoost模型的ATE估计值一致。

基于这些结果,以流产次数为中介,对每个结局进行因果中介分析。

在所有结果中,间接中介效应具有统计学意义,但幅度较小。

具体而言,流产的数量只占整个ACE-心理健康关联的一小部分:抑郁为2.37%,抑郁和焦虑共病为2.43%,焦虑占比最大4.96%,但仍然有限。

本研究的一个显著优势在于它使用了先进的因果推理技术,特别是DML框架,来估计ace对流产和心理健康结果的治疗效果。该方法针对高维混杂因素进行灵活调整,从而能够对因果效应进行更稳健的估计,从而细致地了解将早年逆境与日后健康结局联系起来的路径。

因果推断方法现在已然成熟,在越来越卷的科研时代,因果推断可能是破局之道,也是未来的大势所趋,诸位得抓紧学起来了!


最后,在文末给郑老师我们团队打个广告吧,大家不要见怪哈!

欢迎参加郑老师主持的因果推断训练营

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 3:18:41

车辆TBOX科普 第67次 基于树莓派的简易TBOX开发:软件架构深度解析与实践

引言:为什么软件架构对TBOX至关重要 在上一篇文章中,我们探讨了如何基于树莓派搭建TBOX的硬件平台。硬件是骨骼,而软件则是灵魂。一个设计良好的软件架构不仅能够确保系统稳定可靠地运行,还能为未来的功能扩展和维护提供便利。本文…

作者头像 李华
网站建设 2026/5/6 23:49:10

图书推荐|基于FPGA的嵌入式图像处理系统设计

📘 《基于FPGA的嵌入式图像处理系统设计》——一本真正能把图像算法“搬”进硬件的经典著作图像算法人人会写,但能在 FPGA 上跑起来的才是硬实力。 这本书,就是从“能运行”到“能跑得快”的系统指南。🌟 本书亮点(为什…

作者头像 李华
网站建设 2026/5/10 10:25:35

让 ABAP Pretty Printer 不再把 CDS View 名称强制改成大写:一次针对 LSPPRP04 的精细化修补

在很多团队里,代码格式化并不是可有可无的小事。越是人多、对象多、交付频繁的项目,越需要一套稳定的格式化标准来减少无意义的代码差异,让 Code Review 把注意力放在真正的业务逻辑和设计质量上。SAP 生态里最常见的做法之一,就是在 ABAP Editor 或 ADT 里启用 Pretty Pri…

作者头像 李华
网站建设 2026/5/11 0:07:19

5G基站数已突破475.8万

截至2025年10月底,我国5G网络建设取得显著成果。根据最新统计数据,全国5G基站总量已达到475.8万个,较2024年末新增50.7万个,占移动通信基站总数的37%,较第三季度提升0.4个百分点。5G移动用户规模持续扩大,用…

作者头像 李华