news 2026/4/15 17:19:39

回归研究-1

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
回归研究-1

如果你第一次听到“回归(regression)”这个词,很可能会觉得它非常抽象:为什么研究变量关系要叫“回归”?为什么不是“影响分析”“预测模型”“解释方式”?

事实上,“回归”这个名字背后,同样有一个非常有趣的历史故事,而理解这段历史,能帮助我们真正抓住回归分析的逻辑起点。本讲我们不推公式,不讲算法,只回答两个最基础的问题:这个词从哪里来?回归分析到底研究什么?

回归这个词的来源:从一项“身高研究”开始

“回归(regression)”不是现代统计学家发明的名词,而是英国统计学家Francis Galton(高尔顿) 在1886年提出的。他研究的是一个非常朴素的问题:父母的身高与孩子的身高之间,是否存在某种可预测的关系?

弗朗西斯·高尔顿(Francis Galton,1822—1911),是19世纪典型的“百科全书式科学家”,在统计学、遗传学、心理测量学和地理探索等多个领域都留下了奠基性贡献。他提出了“回归”(regression)和“相关”(correlation)等统计学核心概念,引入四分位距、散点图等基础工具,并推动了现代统计方法的系统化发展。他一生发表了300多篇论文和15本书,横跨多个学科。

高尔顿同时也是查尔斯·达尔文的表弟,其母亲是达尔文的亲姑姑。深受达尔文进化论思想影响,高尔顿尝试将“遗传”和“变异”的概念数学化,进而推动了数量遗传学与早期心理测量方法的发展。可以说,他在统计学上的创新,既源于对自然科学规律的敏锐观察,也体现了达尔文思想在定量研究中的延伸。

高尔顿的发现:极端会“向平均值靠拢”

在统计大量家庭身高数据之后,高尔顿发现一个非常反直觉的现象:

  • 父母特别高,孩子往往也高,但没有父母那么高

  • 父母特别矮,孩子往往也矮,但没有父母那么矮

也就是说:

来自“高极端”或“矮极端”的孩子,都会往整体平均身高靠拢一部分

高尔顿把这种现象称为:

regression toward the mean(向平均值回归,也称“均值回归”

这就是“回归分析”名字的来源。

虽然今天的回归分析早已不仅仅研究“向平均值回归”,但这个名字提醒我们一件非常重要的事:

回归分析的本质,是用一条平均规律来描述变量之间的关系

mid-parent:高尔顿的“父母综合身高指标”是什么?

为了研究“父母身高 → 子代身高”的关系,高尔顿提出了一个关键量:

mid-parent height(中父母身高)

它不是简单的父母身高平均值,而是:

其中1.08是高尔顿用来把母亲身高“换算成男性身高标尺”的校正系数。只有这样,父母身高才能在同一量表上比较。

mid-parent 的意义非常朴素:

它代表父母综合的遗传身高水平。

横轴是 mid-parent,纵轴是子代身高。在他著名的 1886 年图版中,孩子身高的中位数点构成一条倾斜的趋势线,这就是最早的“回归线”。

虽然那时的回归线还不是现代的最小二乘法,但思想已经非常接近:

用一条线,总结 X 与 Y 之间的平均关系。

下图是高尔顿原论文中的“回归图版”,是他1886年论文中的图版,标题为“RATE OF REGRESSION IN HEREDITARY STATURE” 。横轴是“中父母身高”(mid-parent),纵轴是子代身高,线段和点展示了不同父母身高组对应子代的中位数,并画出了一条“回归线”,同时在图上写了文字说明 “When Mid-Parents are taller than mediocrity, their Children tend to be shorter than they”。

下图是Henry老师重画的“父子身高回归示意图”,其中:

  • 横轴:父亲身高

  • 纵轴:儿子身高

  • 圆点:父亲身高和儿子身高的散点图

  • 两条斜线分为为 45°线和回归线。

现代回归分析的核心精神:理解变量之间的“系统性规律”

虽然“回归”一词来源于“向平均值回归”,但现代回归分析的重点已大幅扩展。今天我们做回归,绝不是为了研究“孩子会不会退回平均身高”,而是为了解决更普遍的问题:

  • 教育是否会影响收入?

  • 污染是否会加剧医疗成本?

  • 数字经济是否促进企业创新?

  • 企业 ESG 表现是否降低融资成本?

  • 广告投放是否能提升销量

换句话说:

回归分析研究的是:Y(结果)如何随着 X(因素)而系统性变化。

它不只是给出一个“相关系数”,而是提供一种理解关系的方式——一种能够解释、预测、比较,并揭示一般规律的方法。

为什么所有学科都在使用回归?

从经济学、金融学,到医学、教育学、心理学,甚至政策评估与商业决策,回归分析几乎无处不在。原因很简单:

我们想回答的问题,往往都是“因素 → 结果”的因果或影响问题。

而回归分析正是为此而生的,它帮助我们:

  • 判断关系是否存在

  • 估计影响的大小

  • 排除其他因素干扰

  • 评估结果是否可靠

  • 解释背后的实际意义

可以说,回归是所有数据分析方法里最基础,也最有力量的工具之一。

在你未来的论文或研究中,回归几乎一定会被用到——它是现代实证分析最基础、最通用的工具。

本讲小结

通过本讲,我们澄清了回归分析的历史来源与核心思想:

1)“回归”一词来源于高尔顿研究中发现的“向平均值回归”现象;

2)回归分析的本质,是用数据寻找一种“平均关系”或“整体趋势”

3)现代回归不再局限于身高问题,而成为研究“变量如何系统性地变化”的标准方法;

4)各学科都在使用回归,因为它能帮助我们理解现实世界的规律。


上一讲我们讲了“回归”这个词的由来,以及它如何从一项身高研究发展成现代统计学最重要的方法之一。本讲不再讲历史,而是回答一个更关键的问题:

回归具体能回答什么?又有哪些问题,即使用再复杂的回归,也永远回答不了?

理解这一点,会决定你是否能科学、谨慎地解读回归结果。

回归能回答的三个核心问题

(1)关系是否存在?方向是什么?

回归分析最基本的能力,是判断两个变量之间是否存在一种稳定的、可重复的关系。在具体研究中,我们首先想知道的往往是:

  • 某个变量与结果之间是否存在系统性关系

  • 这种关系是正向、负向,还是不存在

  • 是否具有统计意义

例如:

  • 城市 PM2.5 上升,医疗支出是否随之上升?

  • 数字经济指数越高的地区,是否消费越旺?

  • 企业 ESG 表现越好,融资成本是否越低?

回归通过系数的正负号、显著性水平告诉我们:

这些趋势在数据中是否具有“稳定性”

这一步不能回答因果,但能给我们非常清晰的“方向性证据”。

(2)影响有多大?(回归最重要的价值之一)

回归模型能够通过系数的方向和显著性,告诉我们这种关系在数据中是否成立。但回归的价值远不止判断方向。更重要的是,它能量化这种关系的“大小”。我们更关心:

“到底影响多少?”

例如:

  • 教育年限每增加 1 年,收入平均提高多少?

  • 广告投入增加 10%,销量平均提升多少?

  • 数字普惠金融指数提高 0.1,农村消费提升多少?

这种量化的影响,是政策评估、商业决策和学术解释中最重要的内容。相关性只告诉你两个变量“走向差不多”,而回归告诉你“增加1单位,会带来怎样的平均变化”。例如:

  • 政策制定需要判断成本是否值得

  • 企业决策需要比较投入产出

  • 学术研究需要解释经济意义,而不是只报告了一个p值

所以即使显著性不高,一个有意义的“影响方向 + 影响幅度”依然能为研究提供价值。

(3)在控制其他因素后,这种关系是否仍然存在?

这是回归的“灵魂”。

回归分析的另一个核心能力,是将多个变量同时纳入考虑,找到某个因素对结果的“净影响”

真实世界中,一个结果变量几乎不可能由单一因素决定。房价、收入、销量、健康状况……几乎都受到多重因素共同作用。如果不控制这些因素,很容易把条件差异误当成“影响”。

回归正是通过加入控制变量,把这些背景因素“扣除”,让我们看到某个变量本身的独立效果,也就是经济学中常说的“other things being equal(其他条件不变)”。

例如:

大城市数字经济越发达 → 收入越高

但这是因为数字经济导致的?

还是因为“大城市本来就更富裕”?

因此,回归让我们能同时纳入:

  • 城市规模

  • 教育水平

  • 产业结构

  • 固定效应

  • 地理特征

  • 政策因素

结果可以变成:

在控制城市规模、教育、产业结构等因素后,数字经济每提高 0.1,收入仍然提升 X%。

这才是我们真正想知道的“净效应”。

回归不能回答什么?(三个最容易被误解的地方)

回归分析的局限同样明显,而且远比初学者想象的更严格。下面是回归分析最容易被误解的地方:

(1)回归不能自动推断“因果关系”

这是所有初学者最容易犯的错误。即使回归结果显示:

  • 系数显著

  • p 值小到 0.000

  • R² 很高

你仍然不能说:

“X 导致了 Y。”

这背后的原因,可能包括:

  • 反向因果:收入高的地区更容易发展数字经济

  • 遗漏变量偏误:家庭背景、城市治理未被控制

  • 共同驱动因素:政策、经济周期同时影响 X 和 Y

要想推断因果,需要:

  • 工具变量(IV)

  • 双重差分(DID)

  • 自然实验

  • 随机实验

  • 固定效应模型

  • 断点回归(RDD)

没有这些额外设计,你只能说:

“关系存在”,而不能说“原因是它”。

(2)回归无法保证你的模型是完全正确的

回归模型永远不可能“完美”,很多因素不是回归本身可以判断的,包括:

  • 变量选择可能不完整

  • 函数形式可能设定错误

  • 有些变量测量不准确

  • 有些因素无法观察

  • 模型没有考虑非线性结构

例如:

研究教育对收入的影响,却没有控制“家庭背景” → 结果一定偏误。

模型设定偏误无法通过“回归本身”解决,这就是为什么高级计量方法强调识别策略

(3)回归不能控制无法测量的因素

回归只能控制那些可量化、可观察、且被纳入模型的因素。但现实中存在大量无法测量的因素:

  • 企业家能力

  • 地方治理效率

  • 城市文化氛围

  • 居民风险偏好

  • 企业内部管理水平

这些因素“真实存在”,但无法进入回归模型,于是:

回归永远无法完全消除偏误,它只能尽量减少偏误。

理解这一点,是写论文必须有的“谦逊”。

一个形象的比喻:回归是数据世界里的“显微镜”

如果要给回归找一个形象的比喻,那么它就是数据世界里的显微镜。显微镜能让我们看到肉眼无法观察到的结构,而回归能让我们看到变量之间的系统性关系。显微镜能“放大”细节,但会受到镜头质量、光线、材料透明度等限制;同样,回归能“放大”影响,但会受到变量选择、测量精度、模型设定、数据质量等限制。

回归的力量在于:

  • 它能把变量之间的系统性关系“放大”

  • 它能剔除部分背景噪音

  • 它能量化影响的幅度

但它的局限在于:

  • 模型设定问题

  • 不可观测因素

  • 数据缺失

  • 样本质量差

所以回归是一种强大的工具,但不是万能工具。

本讲小结

本讲我们从能力与边界两个角度重新审视了回归分析:

✔ 回归能够做的是:

  • 方向:关系是否存在

  • 幅度:影响有多大

  • 净效应:控制其他因素后是否依然存在

✘ 回归不能做的是:

  • 自动判断因果

  • 保证模型绝对正确

  • 控制不可测量或不可观测的因素

理解这些,是写好任何回归论文的第一步。


在前两讲中,我们分别讨论了回归的起源,以及回归能够回答什么、不能回答什么。本讲要迈出一个关键步骤:从“直觉层面”走向“模型层面”,正式进入回归的数学逻辑。

但本讲不会进入任何复杂推导。我们的目标很简单:

  • 弄清楚回归模型到底意味着什么?

  • 什么是“总体回归方程”?

  • 我们为什么要通过“样本”去估计它?

  • 误差项 ε 又代表了哪些我们无法直接观察到的东西?

理解这些问题,是掌握整个回归体系的基础。

为什么要区分“总体回归”和“样本回归”?

做回归时,我们在软件里输入数据、点击回归按钮,最后得到一组系数(beta-hat)。但很少有人停下来问:

这个,到底在估计什么?

它为什么“有时准、有时不准”?

要回答这个问题,我们需要区分两个概念:

  • 总体回归(population regression):真实世界中的“真正规律

  • 样本回归(sample regression):我们用有限数据估计出来的“近似规律”

这就像:

  • 总体回归 = “世界上真实存在的但无法直接看到的那条线”

  • 样本回归 = “我们用手上的样本画出的那条线”

而现实研究中,我们永远无法直接看到“总体回归”。我们只能通过有限样本,尽量逼近它。

总体回归:现实世界中的“真实规律线”是什么?

总体回归的基本形式是:

这不是一条数学上的精确直线,而是一个概率关系

它表示:

在真实世界中,Y 的平均变化趋势可以用 β₀ + β₁ X 描述,而所有无法完全解释的部分被放入误差项 ε

也就是说:

  • β₁ 描述的是“平均规律”,不是“每个人的规律”

  • ε 则包含了所有“我们无法观测或无法解释的东西”

在现实世界中:

  • 收入不仅受教育影响,还受家庭背景、行业、城市发展水平、能力等影响

  • 销量不仅受广告影响,还受竞争、季节、价格变化影响

  • 健康不仅受空气污染影响,还受生活习惯、基因差异、医疗资源影响

这些复杂因素不可能全部进入模型,因此:

总体回归方程是一个“平均规律 + 不可控扰动”的组合。

误差项 ε 到底是什么?它为什么是模型的灵魂?

误差项 ε 是回归模型中最容易被忽略、但最重要的部分。它不是“错误”,更不是“噪声”,而是:

我们没有纳入模型的所有影响因素的集合

换句话说,ε 是:

  • 统计上:不可观测变量

  • 经济上:所有“我们解释不了的部分”

  • 方法论上:回归模型是否有效的关键

ε 通常包含:

1)遗漏变量(无法测量或未被纳入)。如:家庭背景、企业家能力、城市氛围

2)随机冲击。如:一次性事件、个人选择、天气、突发事件

3)测量误差。如:收入自报误差、问卷评分偏差

4)个体差异。每个人都有不同的特质,无法完全量化

所以误差项反映的是:

现实世界复杂性 —— 模型永远无法完全解释全部变化。

因此,整个回归理论绕不开的核心问题就是:

X 与 ε 是否相关?

  • 如果相关 → 内生性

  • 如果无关 → 模型可以得到一致的 β̂

这就是为什么 ε 是“模型的灵魂”:

它代表了模型能否正确估计 β 的关键。

样本回归:我们用数据画出的“近似规律线”

总体回归是我们想知道的,但永远看不见。因此,我们只能用样本数据来估计:

回归软件里跑出来的不是“真实值”,而是:

样本中的最好估计(best linear unbiased estimator)

你可以这样理解,我们获得的回归方程,永远不可能完全代表总体,因为它是从有限的样本中推导出来的。

这就像你用有限的人群做身高调查:

  • 真正的中国男性平均身高是“总体”

  • 你调查300人得到的平均身高是“样本”

他们可能接近,也可能偏离,但只要样本足够多、抽样足够随机,你的样本平均值就能逼近真实平均值。

回归亦然:

  • β是总体真值

  • 是样本估计

  • ,但(样本增大时逼近真值)

这就是回归理论中最重要的思想之一:

样本逼近总体。

为什么样本会“逼近”总体?

直觉上可以这样理解:

  • 如果你的数据足够多

  • 如果抽样方式不是偏的

  • 如果误差项 ε 的均值是零(没有系统偏误)

  • 如果 X 与 ε 不相关(核心条件)

那么:

样本中的趋势,最终会无限接近总体中的真实趋势。

这就是统计学中的“大数定律”与“无偏性”思想在回归中的体现,也解释了为什么我们可以用有限样本做经济学、金融学、社会学研究。

一个课堂例子

为了理解“总体回归”和“样本回归”,这里用Henry老师《统计学》课堂上的一个例子,研究“学习时间是否影响英语成绩”。

假设我们要研究大学生的英语学习函数:

  • 自变量 X:每天学习英语的时长

  • 因变量 Y:期末的英语成绩

如果我们关心的是“全国所有大学生”的真实规律,例如:每天多学 1 小时英语,平均能提高几分成绩——这就是总体回归

它描述的是一种“真实存在但无法直接看到”的关系,代表全校甚至全国大学生的平均趋势。

但现实中,我们不可能调查全国所有学生,于是我们用上课的(1)班 45位同学的数据来做一次回归。我们从这45位同学的散点图中画出一条最佳拟合线,会得到2个系数:β₀ 和 β₁,这就是一次样本回归

如果我们换(2)班的学生,或隔一年再抽一批学生重做一次回归,得到的回归线会略有不同——因为每次抽样得到的“样本”不同,但它们都在逼近那条真正的总体规律。

换句话说:

  • 总体回归:全国大学生的英语成绩,真实存在的一条“平均规律线”,我们看不见。

  • 样本回归:我们用手上的数据(如全班45人)画出的那条“近似规律线”,可以多次抽样重复估计。

也正是因为样本会随机波动,而总体不会,所以统计学才需要研究:样本估计如何逼近总体,以及误差项 ε 在其中扮演的关键角色。

上面这张图展示了回归分析中非常重要的概念:总体回归样本回归的区别。

黑色虚线代表总体回归线

它对应真实世界中所有个体(例如全国所有学生)的“平均规律”,是一条固定不变的理论直线;我们永远无法直接看到它,只能通过样本去推断。

多条橙色虚线代表样本回归线

每一条橙色线都对应一次“抽一批样本、做一次回归”的结果。例如只抽取一个班级、或者从不同学校抽样,不同的样本会得到不同的回归线,因此斜率与位置略有差异。

黑色散点代表样本数据点,体现了真实个体之间的差异和误差项的存在。

这张图说明了一个关键事实:

样本回归线会随着样本不同而变化,但总体回归线只有一条。

样本越多、抽样越随机,样本回归线就越集中、越接近那条总体回归线。

本讲小结

本讲我们进入了回归分析的“模型框架”,弄清了几个关键概念:

  • 总体回归是“真实世界的平均规律”

  • 样本回归是我们用有限数据估计出来的“近似规律”

  • 误差项 ε 是所有无法解释、无法测量、无法控制的因素

  • 估计 β 的关键在于:X 是否与 ε 独立

  • 样本不是“真值”,但在一定条件下会逼近总体 β

理解这一讲,你就真正建立起回归分析的逻辑基础。

转自:https://mp.weixin.qq.com/s/ca3mBclDhSYYND18rF4tvw

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/5 17:03:22

Java + LangChain = 王炸!

在 Baeldung 上看到了一篇介绍基于 Java LangChain 开发大语言模型应用的基础入门文章,写的非常不错,非常适合初学者。于是,我抽空翻译了一下。 我的公众号应该有很多读者对这方面的知识感兴趣,希望这篇文章能够起到入门的作用。…

作者头像 李华
网站建设 2026/4/9 10:57:13

621-6550电源输出模块

621-6550 电源输出模块简介: 621-6550 是工业控制系统中使用的电源输出模块 主要用于为系统内其他模块或现场设备提供稳定电源 可将系统电源进行分配并输出到不同负载 适用于机架式或分布式控制系统结构 与控制器、电源输入模块配合使用 输出电压稳定&#xff…

作者头像 李华
网站建设 2026/4/5 18:22:08

621-9000逻辑控制器模块

621-9000 逻辑控制器模块简介: 621-9000 是工业自动化系统中的逻辑控制器模块 主要负责系统控制逻辑的运算与处理 可根据输入信号执行预设的控制程序 支持顺序控制、联锁控制等常见控制方式 用于协调各类输入、输出模块的工作 可作为控制系统的核心处理单元使用…

作者头像 李华
网站建设 2026/4/2 7:30:39

SpringAi-mcp高德

1.创建key 进入高德官网注册,创建key https://console.amap.com/dev/id/phone(官网) 2.编写yml文件 引入自己的key #高德的key AMAP-KEY: #自己的key,复制上 3.创建工具类 3.1AmapService package com.jiazhong.mingxing.ai.siliconflow.mcp.glm.service;im…

作者头像 李华
网站建设 2026/4/14 7:16:51

PDF转存CKEDITOR时文字重叠如何避免?

【穷学生の逆袭】99元预算搞定Word粘贴公式渲染的CMS升级方案 (附JSP后端Vue2代码接单群彩蛋🎉) 一、需求拆解与白嫖策略 作为川软大三狗,面对导师的"Word粘贴全家桶"需求,我摸了摸仅剩的99元,…

作者头像 李华
网站建设 2026/4/11 23:32:57

2026必备!专科生毕业论文AI论文工具TOP8测评

2026必备!专科生毕业论文AI论文工具TOP8测评 2026年专科生论文写作工具测评:为何需要这份榜单? 随着AI技术在教育领域的不断渗透,越来越多的专科生开始借助智能工具提升论文写作效率。然而,面对市场上五花八门的AI论…

作者头像 李华