关注公众号的朋友都知道,郑老师我之前连续4年开设了“30天学会医学统计学”,从理论到实操,一步一步教会大家统计学、SPSS课程。
2026年,我们对这门课程进行全新升级!课程时间大幅度缩短,内容大幅度提升!
我称为:9天实用医学统计学公益训练营。
课程介绍:“9天实用医学统计学”公益训练营即将启动,更高效、更高级的统计课
本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课!不是骗人入坑收费的广告。本课程公益视频课定期开课,欢迎您参与学习。
欢迎报名
本公众号“医学论文与统计分析”,后台回复“报名”,加入微信学习群吧。
Day 4-3 倾向性得分加权
今天我们继续学习倾向性得分加权分析方法。
这个方法非常重要,在本小节中,我删去了一些非常前沿的概念,因为对初学者来讲这理解起来有点难度。但是剩下的内容非常重要,希望大家能认真学习。
“反事实”框架与反事实结果
我们讲倾向性得分加权,先讲第一个概念:反事实。
√什么是“反事实”框架?什么是“反事实”结果?
100多年前,科学哲学家大卫·刘易斯提出了“反事实”框架,作为因果推论的标准。
举个例子:假如有一个人在某种服药状态(暴露A)下,可以观察到某种结果B,这是事实结果。
那么反事实就是:这个人此时如果不服药,会得到另外一个结果B',这个结果叫反事实结果。
反事实结果是观察不到的——因为违反事实,它是灰色的。
再比如,研究一种新降压药A,想知道它能不能降血压。每个人面对这个药物时,都有两个潜在结果:
一个是服用药物A的结果,一个是不服用药物A的结果。
对于每个服药的人来说,我们只能观察到一个结果:他要么服药,要么不服药。如果他服药,你就观察不到他不服药的结果。
每个人在现实世界中只有一种状态——事实状态,没有反事实状态。
√为什么反事实很重要?
假如同一个个体,我们既能观察到他的事实结果(服药),又能观察到他的反事实结果(不服药),然后算个差值,这个差值不就是药物带来的净效果吗?
服药和不服药,针对同一个人完全可比,这个差值就是我们想要的处理效应。
但实际上这是不存在的。打个比方说,有一个平行世界,两个你——这个地球上你服药,另一个地方你不服药,算个差值。这就是我们想要的,但不存在。
√如何近似实现反事实?
可以说,随机对照研究(RCT)是最接近反事实框架的研究。
它通过随机分组,一组干预组、一组对照组,两组人群非常相似。相似的两组人群,不就接近事实与反事实吗?
同时开始处理,一组服药、一组不服药,他们之间的差异就是事实与反事实状态下的差异。
因此,随机对照研究是最接近科学要求的因果推断,是产生正确结果的金标准方法。
观察性研究中,倾向性得分方法也可以塑造出反事实人群,因此它也属于反事实框架的研究。
上一节我们讲的匹配,就是产生两组相似的个体,那不就是事实与反事实吗?但匹配有缺点——它扔掉了一大批研究对象。
因此,我们现在提出倾向性得分加权的方法,包括逆概率加权和标准化死亡比加权。
因果推断的三个重要效应指标
在学习这两种加权方法之前,我们先引入几个新的概念。
还是用之前的例子:治疗非小细胞肺癌药物的前瞻性队列研究,暴露组是放疗加纳武利尤单抗,对照组是传统放疗,两组是不可比的。
假设1000例患者是我们随机抽样得到的代表性样本,代表着真实世界的所有肺癌患者。
其中600例代表愿意接受联合治疗的患者,400例代表倾向于传统放疗的患者。
基于反事实框架,思考以下两个问题:
1.所有1000个人都接受了联合治疗,效果怎么样?
2.本来就倾向于接受联合治疗的患者,最后接受了联合治疗,效果怎么样?
你肯定能理解,这两个结果是不一样的,因为研究对象有区别:1000个人和600个人是有差异的。
这里就涉及到评价效果的几个重要概念:
简单来说。
ATE是1000例都接受联合治疗 vs 1000例都不接受联合治疗(所有人都吃药 vs 所有人都不吃药);
ATT是那些本来就想接受联合治疗的人,最后接受了联合治疗的效果(代表暴露组对象);
ATC是那些本来接受传统放疗的群体,最后接受了联合治疗的效果。
这三个群体是不同的,效应也是不一样的。倾向得分加权时,不同的加权方法算出的效应是不一样的。
这三个概念是因果推断非常基础的评价效应概念,尤其是ATE,是因果推断的重要专用名词。
如果不开展倾向得分加权、不构造反事实人群,ATE、ATT、ATC都很难直接获得:
算ATE时,如果直接比较暴露组与对照组,两组不均衡、不可比,没法评价;
算ATT时,事实人群只有暴露组,没有反事实人群(对照组),没法评价;
算ATC时,只有对照组,没有接受暴露的反事实人群,没法评价。
因此,我们必须构造反事实的群体来计算ATE、ATT、ATC。
逆概率加权与标准化死亡比加权
倾向得分加权通过加权的方法获得事实人群和反事实人群。加权时,首先要设置一个参考群体,这个参考群体叫标准化群体。我们通过权重对齐,使得暴露组和对照组的人群特征与参考群体一致,这样两组就可比了。
逆概率加权是最常见的,它是以所有观察对象作为标准人口进行对齐。
标准化死亡比加权用得不多,它以暴露组对象的特征作为标准人口进行对齐,对照组要乘一个系数,使得加权后对照组与暴露组的特征相似。
标准化方法举例:甲疗法 vs 乙疗法
某医院用甲疗法和乙疗法分别治疗400例胃溃疡患者,有普通型和危重型两种。可以看到:甲疗法75%是普通型,乙疗法75%是危重型。
无论普通型还是危重型,都是乙疗法治愈率更高,但汇总后却显示甲疗法治愈率更高——这就是混杂偏倚,病情的分布结构不一样导致的。
√标准化的思想
我们希望用标准化方法对齐甲疗法和乙疗法的人群特征,然后再比较两种疗法。标准化方法就是在共同的标准上计算标准化率,比较两组或多组。
共同标准可以是:大样本群体(如全省、全国、世界人口构成),用于比较不同国家或省份;
也可以将比较的一组作为标准(标准化死亡比加权);
也可以将比较的组别合并作为标准(逆概率加权)。
标准化使用的标准不同,标准化率也不同,因此算出来的效应也不一样。但无论哪种标准,结果的方向不会改变——甲疗法差,永远是甲疗法差。
√具体计算
将比较的组别合并作为共同标准:甲疗法+乙疗法共800人,普通型和危重型各400人。
按照甲疗法的治愈率、乙疗法的治愈率计算:
甲疗法的预期治愈数:380
乙疗法的预期治愈数:427
甲疗法标准化率:47.5%
乙疗法标准化率:53.4%
乙疗法比甲疗法更高,纠正了原先的错误结论。
从实际人数到标化人口:甲疗法危重型乘以1.33的系数,乙疗法普通型乘以4、危重型乘以1.33。
这一顿操作后,甲疗法和乙疗法的分析对象都变成了800例,就可比了。
√倾向得分加权的算法逻辑
倾向得分加权通过加权的方法获得事实人群和反事实人群。这种加权的方式,首先要设置一个参考群体,这个参考群体叫标准化群体。
我们实际的引用对象,通过权重对齐——通过加权,使得暴露组和对照组的人群特征都与参考群体一致,那就可比了。
逆概率加权,缩写是IPTW,这是最常见的--它是以所有观察对象作为标准人口进行对齐。这个标准人口就是所有观察对象——刚才讲的1000例,就是我们的所有观察对象。
标准化死亡比加权法,简写是SMRW,这种方法用得不多--它以暴露组对象(600例)的特征作为标准人口进行对齐,对照组要乘一个系数。加权完了之后,对照组与暴露组的对象特征相似——也就是以暴露组作为标准人口进行对齐。
也有文献把第一种称为逆概率加权ATE,第二种称为逆概率加权ATT
两种方法的核心区别在于:
逆概率加权(IPTW):以总人口作为标准人口,算出的效应是ATE;
标准化死亡比加权(SMRW):以暴露组作为标准人口,算出的效应是ATT。
我们来看下面这个示意图。总人口的特征,和我们刚才讲的暴露组、对照组特征都相似了,这个叫IPTW,逆概率加权,算出来是ATE。
再看这个图:有一个暴露组的群体,黄色的。我们按照暴露组群体进行加权,最后对照组跟暴露组的特征都相似了,这个叫标准化死亡比加权,它算出来是ATT。
√逆概率加权的具体算法
我们再稍微拓展,讲一下逆概率加权的算法。
IPTW是利用倾向性评分倒数来处理数据间混杂的方法。它有两种加权方法:Robins法和海曼法。
Robins法(普通型)是早期的一种策略。它的权重算法是:
暴露组权重 = 1/PS
对照组权重 = 1/(1-PS)
它的缺点是加权后样本量与原样本量不一致,可能远远大于原样本量。样本量不一致,抽样误差就改变了,数据分析可能就有问题。样本量增加了,容易导致假阳性结果出现——看起来挺好,但是不靠谱。
海曼法(稳健型)又称稳健法。为什么叫稳健法?因为加权后的总样本量和原样本量基本一致。在算法上,它有一个PT,这个PT就是暴露组所占的比例。权重算法是:
暴露组权重 = PT/PS
对照组权重 = (1-PT)/(1-PS)
算法上非常简单,我们手工就可以快速算出来。
推荐使用海曼法(稳健型IPTW)。因为用稳健型的IPTW可以降低假阳性率的发生。现在我们都推荐稳健型的IPTW,我们在看英文文献的时候可以看到这个方法的描述。
郑老师有些时候看文章,会看它的样本量,从样本量就可以看出它是稳健型的还是普通型的。
加权后的数据分析
加权后,一般基于加权的分析工具进行分析。R语言比较流行,有一个survey包,可以进行加权分析,例如加权t检验、加权卡方检验、加权回归。
如果这个时候还存在自变量分组不均衡,那么我们可以纳入这些自变量和暴露因素,开展多因素的加权回归,例如:
多因素的加权Logistic回归
多因素的加权Cox模型
进一步控制混杂偏倚。
小结
以上就是倾向性得分加权的理论内容。后面我们再讲实践。
如果你对整个倾向性得分章节有问题,可以在公众号“医学论文统计分析”后台回复4001,我们会不断把大家的问题纳入答疑帖,方便大家理解。
最后提醒:要学习本推文的完全对应的课程视频,请发送关键词“报名”至公众号,加入高校公益免费课程群来学习吧。
关于郑老师团队及公众号
全国较大的医学统计服务平台,专注于医学生、医护工作者学术研究统计支持
郑老师团队可以提供诸多统计支持:
各式统计课程、临床试验设计
构建预测模型与真实世界研究
“双库”保发表训练营、医学数据库挖掘
详情联系助教小董咨询(微信号aq566665)