如果你第一次听到“回归(regression)”这个词,很可能会觉得它非常抽象:为什么研究变量关系要叫“回归”?为什么不是“影响分析”“预测模型”“解释方式”?
事实上,“回归”这个名字背后,同样有一个非常有趣的历史故事,而理解这段历史,能帮助我们真正抓住回归分析的逻辑起点。本讲我们不推公式,不讲算法,只回答两个最基础的问题:这个词从哪里来?回归分析到底研究什么?
回归这个词的来源:从一项“身高研究”开始
“回归(regression)”不是现代统计学家发明的名词,而是英国统计学家Francis Galton(高尔顿) 在1886年提出的。他研究的是一个非常朴素的问题:父母的身高与孩子的身高之间,是否存在某种可预测的关系?
弗朗西斯·高尔顿(Francis Galton,1822—1911),是19世纪典型的“百科全书式科学家”,在统计学、遗传学、心理测量学和地理探索等多个领域都留下了奠基性贡献。他提出了“回归”(regression)和“相关”(correlation)等统计学核心概念,引入四分位距、散点图等基础工具,并推动了现代统计方法的系统化发展。他一生发表了300多篇论文和15本书,横跨多个学科。
高尔顿同时也是查尔斯·达尔文的表弟,其母亲是达尔文的亲姑姑。深受达尔文进化论思想影响,高尔顿尝试将“遗传”和“变异”的概念数学化,进而推动了数量遗传学与早期心理测量方法的发展。可以说,他在统计学上的创新,既源于对自然科学规律的敏锐观察,也体现了达尔文思想在定量研究中的延伸。
高尔顿的发现:极端会“向平均值靠拢”
在统计大量家庭身高数据之后,高尔顿发现一个非常反直觉的现象:
父母特别高,孩子往往也高,但没有父母那么高
父母特别矮,孩子往往也矮,但没有父母那么矮
也就是说:
来自“高极端”或“矮极端”的孩子,都会往整体平均身高靠拢一部分。
高尔顿把这种现象称为:
regression toward the mean(向平均值回归,也称“均值回归”)
这就是“回归分析”名字的来源。
虽然今天的回归分析早已不仅仅研究“向平均值回归”,但这个名字提醒我们一件非常重要的事:
回归分析的本质,是用一条平均规律来描述变量之间的关系。
mid-parent:高尔顿的“父母综合身高指标”是什么?
为了研究“父母身高 → 子代身高”的关系,高尔顿提出了一个关键量:
mid-parent height(中父母身高)
它不是简单的父母身高平均值,而是:
其中1.08是高尔顿用来把母亲身高“换算成男性身高标尺”的校正系数。只有这样,父母身高才能在同一量表上比较。
mid-parent 的意义非常朴素:
它代表父母综合的遗传身高水平。
横轴是 mid-parent,纵轴是子代身高。在他著名的 1886 年图版中,孩子身高的中位数点构成一条倾斜的趋势线,这就是最早的“回归线”。
虽然那时的回归线还不是现代的最小二乘法,但思想已经非常接近:
用一条线,总结 X 与 Y 之间的平均关系。
下图是高尔顿原论文中的“回归图版”,是他1886年论文中的图版,标题为“RATE OF REGRESSION IN HEREDITARY STATURE” 。横轴是“中父母身高”(mid-parent),纵轴是子代身高,线段和点展示了不同父母身高组对应子代的中位数,并画出了一条“回归线”,同时在图上写了文字说明 “When Mid-Parents are taller than mediocrity, their Children tend to be shorter than they”。
下图是Henry老师重画的“父子身高回归示意图”,其中:
横轴:父亲身高
纵轴:儿子身高
圆点:父亲身高和儿子身高的散点图
两条斜线分为为 45°线和回归线。
现代回归分析的核心精神:理解变量之间的“系统性规律”
虽然“回归”一词来源于“向平均值回归”,但现代回归分析的重点已大幅扩展。今天我们做回归,绝不是为了研究“孩子会不会退回平均身高”,而是为了解决更普遍的问题:
教育是否会影响收入?
污染是否会加剧医疗成本?
数字经济是否促进企业创新?
企业 ESG 表现是否降低融资成本?
广告投放是否能提升销量
换句话说:
回归分析研究的是:Y(结果)如何随着 X(因素)而系统性变化。
它不只是给出一个“相关系数”,而是提供一种理解关系的方式——一种能够解释、预测、比较,并揭示一般规律的方法。
为什么所有学科都在使用回归?
从经济学、金融学,到医学、教育学、心理学,甚至政策评估与商业决策,回归分析几乎无处不在。原因很简单:
我们想回答的问题,往往都是“因素 → 结果”的因果或影响问题。
而回归分析正是为此而生的,它帮助我们:
判断关系是否存在
估计影响的大小
排除其他因素干扰
评估结果是否可靠
解释背后的实际意义
可以说,回归是所有数据分析方法里最基础,也最有力量的工具之一。
在你未来的论文或研究中,回归几乎一定会被用到——它是现代实证分析最基础、最通用的工具。
本讲小结
通过本讲,我们澄清了回归分析的历史来源与核心思想:
1)“回归”一词来源于高尔顿研究中发现的“向平均值回归”现象;
2)回归分析的本质,是用数据寻找一种“平均关系”或“整体趋势”;
3)现代回归不再局限于身高问题,而成为研究“变量如何系统性地变化”的标准方法;
4)各学科都在使用回归,因为它能帮助我们理解现实世界的规律。
上一讲我们讲了“回归”这个词的由来,以及它如何从一项身高研究发展成现代统计学最重要的方法之一。本讲不再讲历史,而是回答一个更关键的问题:
回归具体能回答什么?又有哪些问题,即使用再复杂的回归,也永远回答不了?
理解这一点,会决定你是否能科学、谨慎地解读回归结果。
回归能回答的三个核心问题
(1)关系是否存在?方向是什么?
回归分析最基本的能力,是判断两个变量之间是否存在一种稳定的、可重复的关系。在具体研究中,我们首先想知道的往往是:
某个变量与结果之间是否存在系统性关系
这种关系是正向、负向,还是不存在
是否具有统计意义
例如:
城市 PM2.5 上升,医疗支出是否随之上升?
数字经济指数越高的地区,是否消费越旺?
企业 ESG 表现越好,融资成本是否越低?
回归通过系数的正负号、显著性水平告诉我们:
这些趋势在数据中是否具有“稳定性”。
这一步不能回答因果,但能给我们非常清晰的“方向性证据”。
(2)影响有多大?(回归最重要的价值之一)
回归模型能够通过系数的方向和显著性,告诉我们这种关系在数据中是否成立。但回归的价值远不止判断方向。更重要的是,它能量化这种关系的“大小”。我们更关心:
“到底影响多少?”
例如:
教育年限每增加 1 年,收入平均提高多少?
广告投入增加 10%,销量平均提升多少?
数字普惠金融指数提高 0.1,农村消费提升多少?
这种量化的影响,是政策评估、商业决策和学术解释中最重要的内容。相关性只告诉你两个变量“走向差不多”,而回归告诉你“增加1单位,会带来怎样的平均变化”。例如:
政策制定需要判断成本是否值得
企业决策需要比较投入产出
学术研究需要解释经济意义,而不是只报告了一个p值
所以即使显著性不高,一个有意义的“影响方向 + 影响幅度”依然能为研究提供价值。
(3)在控制其他因素后,这种关系是否仍然存在?
这是回归的“灵魂”。
回归分析的另一个核心能力,是将多个变量同时纳入考虑,找到某个因素对结果的“净影响”。
真实世界中,一个结果变量几乎不可能由单一因素决定。房价、收入、销量、健康状况……几乎都受到多重因素共同作用。如果不控制这些因素,很容易把条件差异误当成“影响”。
回归正是通过加入控制变量,把这些背景因素“扣除”,让我们看到某个变量本身的独立效果,也就是经济学中常说的“other things being equal(其他条件不变)”。
例如:
大城市数字经济越发达 → 收入越高
但这是因为数字经济导致的?
还是因为“大城市本来就更富裕”?
因此,回归让我们能同时纳入:
城市规模
教育水平
产业结构
固定效应
地理特征
政策因素
结果可以变成:
在控制城市规模、教育、产业结构等因素后,数字经济每提高 0.1,收入仍然提升 X%。
这才是我们真正想知道的“净效应”。
回归不能回答什么?(三个最容易被误解的地方)
回归分析的局限同样明显,而且远比初学者想象的更严格。下面是回归分析最容易被误解的地方:
(1)回归不能自动推断“因果关系”
这是所有初学者最容易犯的错误。即使回归结果显示:
系数显著
p 值小到 0.000
R² 很高
你仍然不能说:
“X 导致了 Y。”
这背后的原因,可能包括:
反向因果:收入高的地区更容易发展数字经济
遗漏变量偏误:家庭背景、城市治理未被控制
共同驱动因素:政策、经济周期同时影响 X 和 Y
要想推断因果,需要:
工具变量(IV)
双重差分(DID)
自然实验
随机实验
固定效应模型
断点回归(RDD)
没有这些额外设计,你只能说:
“关系存在”,而不能说“原因是它”。
(2)回归无法保证你的模型是完全正确的
回归模型永远不可能“完美”,很多因素不是回归本身可以判断的,包括:
变量选择可能不完整
函数形式可能设定错误
有些变量测量不准确
有些因素无法观察
模型没有考虑非线性结构
例如:
研究教育对收入的影响,却没有控制“家庭背景” → 结果一定偏误。
模型设定偏误无法通过“回归本身”解决,这就是为什么高级计量方法强调识别策略。
(3)回归不能控制无法测量的因素
回归只能控制那些可量化、可观察、且被纳入模型的因素。但现实中存在大量无法测量的因素:
企业家能力
地方治理效率
城市文化氛围
居民风险偏好
企业内部管理水平
这些因素“真实存在”,但无法进入回归模型,于是:
回归永远无法完全消除偏误,它只能尽量减少偏误。
理解这一点,是写论文必须有的“谦逊”。
一个形象的比喻:回归是数据世界里的“显微镜”
如果要给回归找一个形象的比喻,那么它就是数据世界里的显微镜。显微镜能让我们看到肉眼无法观察到的结构,而回归能让我们看到变量之间的系统性关系。显微镜能“放大”细节,但会受到镜头质量、光线、材料透明度等限制;同样,回归能“放大”影响,但会受到变量选择、测量精度、模型设定、数据质量等限制。
回归的力量在于:
它能把变量之间的系统性关系“放大”
它能剔除部分背景噪音
它能量化影响的幅度
但它的局限在于:
模型设定问题
不可观测因素
数据缺失
样本质量差
所以回归是一种强大的工具,但不是万能工具。
本讲小结
本讲我们从能力与边界两个角度重新审视了回归分析:
✔ 回归能够做的是:
方向:关系是否存在
幅度:影响有多大
净效应:控制其他因素后是否依然存在
✘ 回归不能做的是:
自动判断因果
保证模型绝对正确
控制不可测量或不可观测的因素
理解这些,是写好任何回归论文的第一步。
在前两讲中,我们分别讨论了回归的起源,以及回归能够回答什么、不能回答什么。本讲要迈出一个关键步骤:从“直觉层面”走向“模型层面”,正式进入回归的数学逻辑。
但本讲不会进入任何复杂推导。我们的目标很简单:
弄清楚回归模型到底意味着什么?
什么是“总体回归方程”?
我们为什么要通过“样本”去估计它?
误差项 ε 又代表了哪些我们无法直接观察到的东西?
理解这些问题,是掌握整个回归体系的基础。
为什么要区分“总体回归”和“样本回归”?
做回归时,我们在软件里输入数据、点击回归按钮,最后得到一组系数(beta-hat)。但很少有人停下来问:
这个,到底在估计什么?
它为什么“有时准、有时不准”?
要回答这个问题,我们需要区分两个概念:
总体回归(population regression):真实世界中的“真正规律”
样本回归(sample regression):我们用有限数据估计出来的“近似规律”
这就像:
总体回归 = “世界上真实存在的但无法直接看到的那条线”
样本回归 = “我们用手上的样本画出的那条线”
而现实研究中,我们永远无法直接看到“总体回归”。我们只能通过有限样本,尽量逼近它。
总体回归:现实世界中的“真实规律线”是什么?
总体回归的基本形式是:
这不是一条数学上的精确直线,而是一个概率关系。
它表示:
在真实世界中,Y 的平均变化趋势可以用 β₀ + β₁ X 描述,而所有无法完全解释的部分被放入误差项 ε。
也就是说:
β₁ 描述的是“平均规律”,不是“每个人的规律”
ε 则包含了所有“我们无法观测或无法解释的东西”
在现实世界中:
收入不仅受教育影响,还受家庭背景、行业、城市发展水平、能力等影响
销量不仅受广告影响,还受竞争、季节、价格变化影响
健康不仅受空气污染影响,还受生活习惯、基因差异、医疗资源影响
这些复杂因素不可能全部进入模型,因此:
总体回归方程是一个“平均规律 + 不可控扰动”的组合。
误差项 ε 到底是什么?它为什么是模型的灵魂?
误差项 ε 是回归模型中最容易被忽略、但最重要的部分。它不是“错误”,更不是“噪声”,而是:
我们没有纳入模型的所有影响因素的集合。
换句话说,ε 是:
统计上:不可观测变量
经济上:所有“我们解释不了的部分”
方法论上:回归模型是否有效的关键
ε 通常包含:
1)遗漏变量(无法测量或未被纳入)。如:家庭背景、企业家能力、城市氛围
2)随机冲击。如:一次性事件、个人选择、天气、突发事件
3)测量误差。如:收入自报误差、问卷评分偏差
4)个体差异。每个人都有不同的特质,无法完全量化
所以误差项反映的是:
现实世界复杂性 —— 模型永远无法完全解释全部变化。
因此,整个回归理论绕不开的核心问题就是:
X 与 ε 是否相关?
如果相关 → 内生性
如果无关 → 模型可以得到一致的 β̂
这就是为什么 ε 是“模型的灵魂”:
它代表了模型能否正确估计 β 的关键。
样本回归:我们用数据画出的“近似规律线”
总体回归是我们想知道的,但永远看不见。因此,我们只能用样本数据来估计:
回归软件里跑出来的、
不是“真实值”,而是:
样本中的最好估计(best linear unbiased estimator)
你可以这样理解,我们获得的回归方程,永远不可能完全代表总体,因为它是从有限的样本中推导出来的。
这就像你用有限的人群做身高调查:
真正的中国男性平均身高是“总体”
你调查300人得到的平均身高是“样本”
他们可能接近,也可能偏离,但只要样本足够多、抽样足够随机,你的样本平均值就能逼近真实平均值。
回归亦然:
β是总体真值
是样本估计
,但
(样本增大时逼近真值)
这就是回归理论中最重要的思想之一:
样本逼近总体。
为什么样本会“逼近”总体?
直觉上可以这样理解:
如果你的数据足够多
如果抽样方式不是偏的
如果误差项 ε 的均值是零(没有系统偏误)
如果 X 与 ε 不相关(核心条件)
那么:
样本中的趋势,最终会无限接近总体中的真实趋势。
这就是统计学中的“大数定律”与“无偏性”思想在回归中的体现,也解释了为什么我们可以用有限样本做经济学、金融学、社会学研究。
一个课堂例子
为了理解“总体回归”和“样本回归”,这里用Henry老师《统计学》课堂上的一个例子,研究“学习时间是否影响英语成绩”。
假设我们要研究大学生的英语学习函数:
自变量 X:每天学习英语的时长
因变量 Y:期末的英语成绩
如果我们关心的是“全国所有大学生”的真实规律,例如:每天多学 1 小时英语,平均能提高几分成绩——这就是总体回归。
它描述的是一种“真实存在但无法直接看到”的关系,代表全校甚至全国大学生的平均趋势。
但现实中,我们不可能调查全国所有学生,于是我们用上课的(1)班 45位同学的数据来做一次回归。我们从这45位同学的散点图中画出一条最佳拟合线,会得到2个系数:β₀ 和 β₁,这就是一次样本回归。
如果我们换(2)班的学生,或隔一年再抽一批学生重做一次回归,得到的回归线会略有不同——因为每次抽样得到的“样本”不同,但它们都在逼近那条真正的总体规律。
换句话说:
总体回归:全国大学生的英语成绩,真实存在的一条“平均规律线”,我们看不见。
样本回归:我们用手上的数据(如全班45人)画出的那条“近似规律线”,可以多次抽样重复估计。
也正是因为样本会随机波动,而总体不会,所以统计学才需要研究:样本估计如何逼近总体,以及误差项 ε 在其中扮演的关键角色。
上面这张图展示了回归分析中非常重要的概念:总体回归与样本回归的区别。
黑色虚线代表总体回归线:
它对应真实世界中所有个体(例如全国所有学生)的“平均规律”,是一条固定不变的理论直线;我们永远无法直接看到它,只能通过样本去推断。
多条橙色虚线代表样本回归线:
每一条橙色线都对应一次“抽一批样本、做一次回归”的结果。例如只抽取一个班级、或者从不同学校抽样,不同的样本会得到不同的回归线,因此斜率与位置略有差异。
黑色散点代表样本数据点,体现了真实个体之间的差异和误差项的存在。
这张图说明了一个关键事实:
样本回归线会随着样本不同而变化,但总体回归线只有一条。
样本越多、抽样越随机,样本回归线就越集中、越接近那条总体回归线。
本讲小结
本讲我们进入了回归分析的“模型框架”,弄清了几个关键概念:
总体回归是“真实世界的平均规律”
样本回归是我们用有限数据估计出来的“近似规律”
误差项 ε 是所有无法解释、无法测量、无法控制的因素
估计 β 的关键在于:X 是否与 ε 独立
样本
不是“真值”,但在一定条件下会逼近总体 β
理解这一讲,你就真正建立起回归分析的逻辑基础。
转自:https://mp.weixin.qq.com/s/ca3mBclDhSYYND18rF4tvw