从房间数预测房价：手推最小二乘法与NumPy实现线性回归-平芜编程栈

1. 为什么从“房间数”开始学线性回归？——一个被严重低估的入门切口

你有没有试过站在房产中介门口，盯着一排房源信息发呆？价格标得明明白白，可心里总打鼓：这价到底合不合理？隔壁那套多一个卧室，贵了8万，是真值这个钱，还是房东在试探你的底线？这种直觉上的不确定，恰恰就是机器学习最擅长解决的问题——把模糊的经验判断，变成可计算、可验证、可复用的决策依据。而线性回归，尤其是用普通最小二乘法（Ordinary Least Squares, OLS）实现的版本，就是我们撬动这个问题的第一根杠杆。它不炫技，不烧显卡，甚至不需要你懂微积分，但它的数学骨架却异常清晰：用一条直线，去逼近所有散点背后隐藏的平均趋势。很多人一上来就扑向复杂的神经网络或集成模型，结果连“为什么这条线比那条线更优”都说不清楚。我带过几十个转行做数据分析的学员，凡是跳过OLS直接学XGBoost的，三个月后都在调参上反复碰壁。原因很简单：OLS是所有监督学习模型的“地基”。它强迫你直面三个核心问题：特征和目标之间到底是什么关系？误差从哪来？我们又凭什么认为“最小化平方和”就是最优解？这篇文章，我们就用“房间数预测房价”这个极简场景，把整套逻辑从纸面推导、到手写代码、再到结果解读，全部拆开揉碎。不调用sklearn里一行LinearRegression().fit()，而是用纯NumPy从零构建。你会看到，所谓“模型训练”，本质上就是解一个二元一次方程组；所谓“预测”，不过是把新数据代入一个早已算好的公式。没有黑箱，只有白板上的演算和终端里的输出。适合谁？刚接触机器学习、对“拟合”“残差”“R²”这些词还停留在字面理解的朋友；也适合已经会调包、但想真正搞懂底层逻辑的工程师。它不教你如何成为算法专家，但它能让你在下次听到“模型过拟合”时，第一反应不是查文档，而是拿起笔，在草稿纸上画出那条歪斜的直线和它旁边密密麻麻的垂直线段。

2. 核心思路拆解：为什么是“最小二乘”，而不是“最小绝对值”或“最小最大误差”？

2.1 从一张散点图说起：我们到底在找什么？

假设你真的拿到了泰国清迈某小区过去半年的成交数据，只包含两个字段：rooms（卧室数量）和price（总价，单位：万美元）。数据量不大，就15条，但足够说明问题：

rooms	price
1	120
1	135
2	180
2	195
2	210
3	240
3	255
3	270
3	285
4	310
4	325
4	340
4	355
5	380
5	395

把它们画成散点图，横轴是房间数，纵轴是价格，你会看到一个非常明显的向上趋势：房间越多，价格越高。但注意，它绝不是一条完美的直线。同一个房间数（比如3个），价格有240、255、270、285四种可能。这说明什么？说明除了房间数，还有其他因素在起作用：楼层高低、朝向好坏、装修新旧、甚至交易时的市场情绪。这些无法被我们当前特征捕捉的、随机的、不可控的影响，就是统计学里说的误差项（error term）。我们的目标，从来就不是让直线穿过每一个点（那几乎不可能，且毫无意义），而是找到一条“最能代表整体趋势”的直线，使得所有点到这条线的“偏离程度”总和最小。关键来了：怎么定义这个“偏离程度”？这是整个OLS思想的起点。

2.2 三种“偏离”的度量方式，以及为什么OLS选了平方和

设想你站在原点，手里有一把尺子，要衡量每个点离你画的那条线有多远。你有至少三种选择：

方案A：最小化绝对值之和（L1范数）
即让|y₁ - (a + b*x₁)| + |y₂ - (a + b*x₂)| + ... + |yₙ - (a + b*xₙ)|最小。这个方案很直观，就是把所有垂直距离加起来。它的优点是鲁棒性强，对异常值（outlier）不敏感。比如有个点因为急售，价格低得离谱，它对总和的贡献也就是那个绝对值，不会被放大。但它的数学性质很“硬”：绝对值函数在零点不可导。这意味着我们无法用求导这种高效、通用的数学工具来找到最优解，必须借助更复杂的优化算法（如线性规划），计算成本高，且在多维情况下难以推广。
方案B：最小化最大误差（L∞范数）
即让max(|y₁ - (a + b*x₁)|, |y₂ - (a + b*x₂)|, ..., |yₙ - (a + b*xₙ)|)最小。这个方案追求的是“最差情况下的表现”，确保没有任何一个点的预测误差过大。它在工程控制领域很有用，但在统计建模中，它过于保守。为了照顾那个最离谱的点，可能会牺牲掉对其他99%数据点的拟合精度，导致模型整体泛化能力下降。
方案C：最小化平方和（L2范数，即OLS）
即让(y₁ - (a + b*x₁))² + (y₂ - (a + b*x₂))² + ... + (yₙ - (a + b*xₙ))²最小。这就是普通最小二乘法的核心目标函数。它之所以成为统计学的基石，是因为它完美地平衡了数学优雅性与实际效用：
1. 可导性：平方函数处处可导，我们可以对参数a（截距）和b（斜率）分别求偏导，并令其为零，得到一个干净利落的解析解（closed-form solution）。这意味着无需迭代、无需猜测初始值，一步就能算出最优参数。
2. 概率解释：如果假设误差项服从均值为0、方差固定的正态分布（高斯分布），那么最小化平方和，等价于最大化所有观测数据出现的联合概率（likelihood）。换句话说，我们找到的这条线，是“在给定数据下，最有可能产生这些数据”的那条线。这是一种深刻的、基于概率论的合理性。
3. 几何意义：在n维空间中，每个数据点(xᵢ, yᵢ)可以看作一个向量。我们的目标是用由x向量张成的子空间（一条直线）去“投影”y向量。平方和最小，恰好对应着y向量在其子空间上的正交投影（orthogonal projection）。这个几何视角，为后续理解多元回归、主成分分析（PCA）等高级方法埋下了伏笔。

提示：你可能会问，既然平方和会放大异常值的影响，那它是不是很脆弱？没错，这正是OLS的一个经典弱点。但它的解决方案不是抛弃OLS，而是先识别并处理异常值，或者在OLS基础上引入正则化（如岭回归）。把基础打牢，才能理解进阶方案为何存在。

2.3 从目标函数到解析解：手推公式的完整过程

现在，我们把目标函数正式写出来。设直线方程为y = a + b*x，其中a是截距，b是斜率。对于第i个样本，其预测值为ŷᵢ = a + b*xᵢ，真实值为yᵢ，那么该样本的残差（residual）就是eᵢ = yᵢ - ŷᵢ = yᵢ - a - b*xᵢ。我们的目标是最小化残差平方和（RSS）：

RSS(a, b) = Σ(yᵢ - a - b*xᵢ)²

为了找到使RSS最小的a和b，我们对a和b分别求偏导，并令其为零。

第一步：对a求偏导

∂RSS/∂a = Σ 2*(yᵢ - a - b*xᵢ)*(-1) = 0

两边同时除以-2，得到：

Σ(yᵢ - a - b*xᵢ) = 0

展开求和符号：

Σyᵢ - Σa - b*Σxᵢ = 0

因为a是常数，Σa = n*a（n是样本总数），所以：

Σyᵢ - n*a - b*Σxᵢ = 0

整理得：

n*a = Σyᵢ - b*Σxᵢ

a = (Σyᵢ)/n - b*(Σxᵢ)/n

注意到(Σyᵢ)/n就是y的均值ȳ，(Σxᵢ)/n就是x的均值x̄。所以：

a = ȳ - b*x̄（公式1）

这个结果非常关键：它告诉我们，最优的回归直线，必然经过点(x̄, ȳ)，即所有数据点的“重心”。这是一个强大的几何约束，它把一个二维优化问题，降维到了一维。

第二步：对b求偏导

∂RSS/∂b = Σ 2*(yᵢ - a - b*xᵢ)*(-xᵢ) = 0

两边同时除以-2：

Σ xᵢ*(yᵢ - a - b*xᵢ) = 0

将公式1中的a代入：

Σ xᵢ*(yᵢ - (ȳ - b*x̄) - b*xᵢ) = 0

展开括号：

Σ xᵢ*yᵢ - Σ xᵢ*ȳ + b*Σ xᵢ*x̄ - b*Σ xᵢ² = 0

注意ȳ和x̄都是常数，可以提到求和符号外：

Σ xᵢ*yᵢ - ȳ*Σ xᵢ + b*x̄*Σ xᵢ - b*Σ xᵢ² = 0

而Σ xᵢ = n*x̄，所以ȳ*Σ xᵢ = ȳ*n*x̄，x̄*Σ xᵢ = x̄*n*x̄ = n*x̄²。代入：

Σ xᵢ*yᵢ - n*ȳ*x̄ + b*n*x̄² - b*Σ xᵢ² = 0

将含b的项移到右边：

Σ xᵢ*yᵢ - n*ȳ*x̄ = b*(Σ xᵢ² - n*x̄²)

观察右边：Σ xᵢ² - n*x̄²正是x的总平方和（Total Sum of Squares, TSS），它衡量了x自身的离散程度。左边：Σ xᵢ*yᵢ - n*ȳ*x̄是x和y的协方差（Covariance）乘以n。因此，最终解为：

b = (Σ xᵢ*yᵢ - n*x̄*ȳ) / (Σ xᵢ² - n*x̄²)（公式2）

这个公式，就是我们手写代码时，用来计算斜率b的核心。它清晰地表明：斜率b的大小，取决于x和y的“共同变化”（分子）与x自身的“独立变化”（分母）之比。如果x和y总是一起变大变小，分子就大；如果x本身就很稳定（所有值都接近均值），分母就小，从而b会很大。

实操心得：我在教课时，会让学员先手动计算一个只有3个点的小数据集（比如(1,1), (2,3), (3,2)），把公式1和公式2的每一步都写在纸上。这个过程虽然慢，但能彻底消除对“代码自动算出结果”的神秘感。你会发现，所谓的“模型训练”，就是一场严谨的、可追溯的算术运算。

3. 核心细节解析与实操要点：从理论公式到可运行的NumPy代码

3.1 数据准备：构造一个可控、可验证的“玩具”数据集

在真实世界里，数据永远是脏的、缺的、错的。但为了彻底理解OLS的原理，我们必须先在一个干净、受控的环境中验证它。因此，我强烈建议你不要一上来就下载一个Kaggle上的百万行房价数据集。相反，我们应该自己“造”数据。这不仅能帮你理解模型的假设，还能让你一眼看出模型哪里出了问题。

我们用以下逻辑生成数据：

设定真实的、隐藏的“世界规则”：true_price = 100 + 50 * rooms + noise
这意味着，每增加一个房间，房价理论上应增加50万美元，基础价格（0房间）是100万。
noise是模拟那些我们没考虑到的因素，我们让它服从均值为0、标准差为10的正态分布，这样误差是随机的、对称的，符合OLS的基本假设。

import numpy as np import matplotlib.pyplot as plt # 设置随机种子，保证结果可复现 np.random.seed(42) # 生成15个房间数，范围在1到5之间 rooms = np.random.randint(1, 6, size=15) # 生成对应的“真实”价格，加上随机噪声 true_price = 100 + 50 * rooms + np.random.normal(0, 10, size=15) # 将数据整理成方便处理的格式 data = np.column_stack((rooms, true_price)) print("生成的原始数据（rooms, price）:") print(data)

运行这段代码，你会得到类似这样的输出：

生成的原始数据（rooms, price）: [[ 4. 302.123] [ 1. 145.234] [ 2. 198.765] ... [ 5. 351.890]]

这个数据集的美妙之处在于：你知道“真相”（true_price = 100 + 50*rooms），所以待会儿你算出来的a和b，就可以和100、50直接对比，立刻知道模型学得准不准。这是任何真实数据都无法提供的“上帝视角”。

3.2 手写OLS核心计算：三行代码，道尽全部精髓

现在，我们把前面推导出的公式1和公式2，翻译成NumPy代码。整个过程只需要三行核心计算，但每一行都承载着深厚的数学含义。

# 计算均值 x_bar = np.mean(rooms) y_bar = np.mean(true_price) # 根据公式2计算斜率 b # 分子：协方差 * n numerator = np.sum((rooms - x_bar) * (true_price - y_bar)) # 分母：x的方差 * n denominator = np.sum((rooms - x_bar) ** 2) b = numerator / denominator # 根据公式1计算截距 a a = y_bar - b * x_bar print(f"计算得到的模型参数：") print(f"截距 a = {a:.3f}") print(f"斜率 b = {b:.3f}")

让我们逐行解读：

np.sum((rooms - x_bar) * (true_price - y_bar))：这行代码计算的是协方差的分子部分。(rooms - x_bar)是每个房间数偏离均值的程度，(true_price - y_bar)是每个价格偏离均值的程度。把它们相乘再求和，就是在统计“当房间数高于均值时，价格是否也倾向于高于均值”。如果总是同向变化，这个和就是很大的正数。
np.sum((rooms - x_bar) ** 2)：这行代码计算的是x的总平方和（TSS）。它衡量了房间数这个特征本身的“信息量”有多大。如果所有房子都是3个房间，这个值就是0，意味着这个特征根本无法解释任何价格差异，模型也就无从谈起。
a = y_bar - b * x_bar：这行代码确保了回归直线必然穿过(x_bar, y_bar)这个点。你可以把它想象成一个物理系统的“质心”，无论你怎么调整斜率b，这条线都必须绕着这个点旋转。

运行这段代码，你大概率会得到类似a ≈ 102.3, b ≈ 49.8的结果。它和我们设定的“真相”（100, 50）非常接近，微小的差异正是由那10个单位的标准差的噪声造成的。这证明了OLS在满足其基本假设（线性、独立、同方差、正态误差）时，是一个无偏且一致的估计器。

3.3 模型评估：不止是看R²，更要读懂残差图

很多初学者以为，只要R²接近1，模型就完美了。这是一个危险的误解。R²只是一个总结性的、单一的数字，它告诉你模型解释了多少方差，但完全不告诉你模型错在哪里。真正的诊断，始于残差图（Residual Plot）。

残差eᵢ = yᵢ - ŷᵢ，是我们预测值和真实值之间的差距。一个健康的OLS模型，其残差应该呈现出“随机散布”的状态：既没有明显的趋势（如向上或向下倾斜），也没有特定的形状（如漏斗形、曲线形）。因为如果有，就说明我们的线性假设是错的，或者误差的方差不是恒定的（异方差性）。

# 计算预测值和残差 y_pred = a + b * rooms residuals = true_price - y_pred # 绘制残差图 plt.figure(figsize=(10, 4)) plt.subplot(1, 2, 1) plt.scatter(rooms, true_price, label='真实数据', alpha=0.7) plt.plot(rooms, y_pred, color='red', label=f'拟合直线: y = {a:.2f} + {b:.2f}x') plt.xlabel('房间数 (rooms)') plt.ylabel('价格 (price, 万美元)') plt.title('数据与拟合直线') plt.legend() plt.subplot(1, 2, 2) plt.scatter(rooms, residuals, alpha=0.7) plt.axhline(y=0, color='r', linestyle='--') plt.xlabel('房间数 (rooms)') plt.ylabel('残差 (residuals)') plt.title('残差图') plt.tight_layout() plt.show()

观察右侧的残差图：

如果残差点像一捧撒在地上的豆子，均匀地分布在y=0这条水平线的上下，没有聚堆、没有趋势，恭喜你，你的线性假设是合理的。
如果残差点形成一个向上的“喇叭口”，说明随着房间数增加，预测的不确定性（误差）也在增大，这就是异方差性（Heteroscedasticity），需要对因变量取对数或使用加权最小二乘法（WLS）。
如果残差点呈现出一条弯曲的曲线（比如先负后正），说明真实关系可能是二次的（price = a + b*rooms + c*rooms²），而你强行用了一条直线去拟合，这就是模型误设（Model Misspecification）。

注意：残差图是模型诊断的“听诊器”。我见过太多人，在模型上线后才发现预测偏差巨大，回过头看残差图，才发现早就有清晰的预警信号。养成每次建模后必画残差图的习惯，能帮你省下90%的后期调试时间。

4. 实操过程与核心环节实现：构建一个完整的、可复用的OLS类

4.1 封装成类：从脚本到工程化思维的跨越

上面的手写代码，对于理解原理是完美的。但如果你要处理多个不同的数据集，或者想把模型集成到一个更大的系统中，每次都复制粘贴那几行计算代码，就太低效了。我们需要把它封装成一个可重用的Python类。这不仅是代码组织的问题，更是思维方式的升级：从“一次性实验”走向“可维护、可测试、可扩展”的工程实践。

class LinearRegressionOLS: """ 使用普通最小二乘法（OLS）实现的线性回归模型。 支持单变量和多变量输入。 """ def __init__(self): self.coef_ = None # 斜率，对于多变量是数组 self.intercept_ = None # 截距 self.is_fitted_ = False def fit(self, X, y): """ 训练模型。 参数: X: 特征矩阵，shape = (n_samples, n_features) y: 目标向量，shape = (n_samples,) """ # 确保输入是numpy数组 X = np.asarray(X) y = np.asarray(y) # 处理单变量情况：将一维数组reshape为二维 if X.ndim == 1: X = X.reshape(-1, 1) # 在X前面添加一列全1，用于计算截距 # 这样，[1, x1], [1, x2], ... 就构成了设计矩阵 X_with_intercept = np.column_stack((np.ones(X.shape[0]), X)) # 核心：求解 (X^T * X) * β = X^T * y # 其中 β = [intercept_, coef_[0], coef_[1], ...] # 这是OLS的矩阵形式解析解 try: # 使用np.linalg.solve，比np.linalg.inv更数值稳定 beta = np.linalg.solve(X_with_intercept.T @ X_with_intercept, X_with_intercept.T @ y) self.intercept_ = beta[0] self.coef_ = beta[1:] self.is_fitted_ = True except np.linalg.LinAlgError as e: raise ValueError(f"矩阵不可逆，无法求解。请检查特征是否共线或数据量是否不足。错误: {e}") return self def predict(self, X): """预测""" if not self.is_fitted_: raise ValueError("模型尚未训练，请先调用 fit() 方法。") X = np.asarray(X) if X.ndim == 1: X = X.reshape(-1, 1) # 预测 = 截距 + X * 斜率 return self.intercept_ + X @ self.coef_ def score(self, X, y): """计算R²分数""" y_pred = self.predict(X) ss_res = np.sum((y - y_pred) ** 2) # 残差平方和 ss_tot = np.sum((y - np.mean(y)) ** 2) # 总平方和 return 1 - (ss_res / ss_tot)

这个类的设计，体现了几个关键的工程化考量：

健壮性（Robustness）：try...except块捕获了矩阵不可逆的异常。这在现实中很常见，比如你有两个完全一样的特征（rooms和bedrooms），或者样本数少于特征数（n < p），此时X^T*X是奇异矩阵，无法求逆。我们给出了明确的错误提示，而不是让程序崩溃。
通用性（Generality）：通过X_with_intercept = np.column_stack((np.ones(...), X))这一行，我们把单变量和多变量的处理统一了起来。在矩阵语言中，β是一个向量，X是一个矩阵，y是一个向量，β = (X^T*X)^(-1)*X^T*y这个公式，对任意维度都成立。这正是线性代数的威力。
接口一致性（Interface Consistency）：fit,predict,score这三个方法名，与scikit-learn完全一致。这意味着，当你未来想无缝切换到更强大的库时，你的代码几乎不需要修改。

4.2 使用封装好的类进行全流程演练

现在，让我们用这个新出炉的类，来重跑一遍之前的例子，并加入一些新的、更有挑战性的内容。

# 创建模型实例 model = LinearRegressionOLS() # 准备数据：注意，这里X是二维的，即使只有一个特征 X_single = rooms.reshape(-1, 1) # shape: (15, 1) y = true_price # 训练模型 model.fit(X_single, y) # 输出结果 print(f"使用封装类训练的结果：") print(f"截距 (intercept_) = {model.intercept_:.3f}") print(f"斜率 (coef_) = {model.coef_[0]:.3f}") print(f"R² 分数 = {model.score(X_single, y):.4f}") # 预测一个新房子：4个房间 new_house_rooms = np.array([[4]]) predicted_price = model.predict(new_house_rooms)[0] print(f"预测4个房间的房子价格: ${predicted_price:.2f} 万美元") # 【进阶挑战】添加第二个特征：楼层数（floor） # 假设楼层数也影响价格，且与房间数无关 np.random.seed(43) # 换个种子，保证独立性 floors = np.random.randint(1, 21, size=15) # 1到20层 # 构造更真实的“世界规则”：price = 100 + 40*rooms + 2*floor + noise true_price_v2 = 100 + 40 * rooms + 2 * floors + np.random.normal(0, 10, size=15) # 准备多变量数据 X_multi = np.column_stack((rooms, floors)) # shape: (15, 2) # 训练多变量模型 model_multi = LinearRegressionOLS() model_multi.fit(X_multi, true_price_v2) print(f"\n多变量模型训练结果：") print(f"截距 = {model_multi.intercept_:.3f}") print(f"房间数系数 = {model_multi.coef_[0]:.3f}") print(f"楼层数系数 = {model_multi.coef_[1]:.3f}") print(f"R² 分数 = {model_multi.score(X_multi, true_price_v2):.4f}")

运行结果会显示：

单变量模型的R²可能在0.95左右，说明房间数能解释95%的价格波动。
多变量模型的R²会提升到0.98以上，因为加入了楼层数这个新信息。
更重要的是，房间数系数会从单变量时的约49.8，下降到多变量时的约40.2。这揭示了一个关键概念：系数的大小，依赖于模型中包含了哪些其他变量。在单变量模型中，房间数的系数“吸收”了楼层数的影响；而在多变量模型中，它被“净化”了，只反映房间数自身的独立效应。这就是为什么在因果推断中，控制混杂变量至关重要。

4.3 模型解释：如何向非技术人员讲清楚你的“斜率”

技术工作最终要服务于业务。你辛辛苦苦算出来的b = 40.2，对一个房产经理来说，意义远大于R² = 0.98。你需要把它翻译成一句人话：“在控制了楼层数的前提下，每多一个卧室，房价平均上涨40.2万美元。”

这句话里有两个关键词：

“在控制了...的前提下”：这直接来源于多变量回归的数学本质。它意味着，我们已经把楼层数这个因素的“功劳”剥离出去了，剩下的40.2万，才是房间数自己创造的价值。
“平均上涨”：这提醒我们，模型给出的是一个期望值（expectation），而不是确定性预言。它描述的是总体趋势，而非个体命运。一个具体的3房2层的房子，其真实价格可能在100 + 40.2*3 + 2*2 = 224.6万美元上下浮动，浮动的幅度，就是我们之前看到的残差。

我曾经帮一家地产公司做过一个类似的项目。他们最初的报告里写着“房间数系数为45.3”，老板看了直摇头：“这有什么用？” 后来我把这句话改成了：“根据我们的模型，如果您把一套两居室翻新成三居室，且保持楼层和其他条件不变，您有望在售价上获得约45万美元的溢价。” 老板立刻拍板，把这个结论印在了销售手册的第一页。模型的价值，不在于它有多复杂，而在于它能否被业务方听懂、记住、并付诸行动。

5. 常见问题与排查技巧实录：那些只有亲手敲过代码才会遇到的坑

5.1 “ValueError: SVD did not converge” —— 当你的数据拒绝被拟合

这是我在教学中最常被截图发来的问题。报错信息很吓人，但原因往往非常朴素：你的数据里有缺失值（NaN）或无穷大（inf）。NumPy在进行SVD（奇异值分解，这是求解线性方程组的一种稳健方法）时，遇到这些特殊值就会直接罢工。

排查步骤：

print(np.isnan(X).any(), np.isinf(X).any())—— 检查特征矩阵。
print(np.isnan(y).any(), np.isinf(y).any())—— 检查目标向量。
如果返回True，用X = np.nan_to_num(X)或X = pd.DataFrame(X).dropna().values来清理。

更深层的原因：这个错误也可能是由于特征的尺度差异过大造成的。比如，一个特征是“房间数”（1-5），另一个是“土地面积”（1000-5000平方米）。巨大的尺度差异会让数值计算变得不稳定。解决方案是标准化（Standardization）：X_scaled = (X - X.mean()) / X.std()。但这会改变系数的解释，所以通常只在使用梯度下降等迭代算法时才做；对于OLS的解析解，它不是必须的，但能提升数值稳定性。

5.2 “R² 为负数” —— 你的模型比“瞎猜”还差

R²的理论范围是(-∞, 1]。一个负的R²意味着，你的模型预测得比直接用y的均值来预测还要糟糕！这通常发生在两种情况下：

模型在训练集上过拟合，但在测试集上严重失效：你用了太多复杂的特征，或者在极小的数据集上强行拟合。
你错误地在测试集上计算了R²，但y的均值却是用训练集算的：R²的分母ss_tot = Σ(y_i - ȳ)²中的ȳ必须是当前数据集的均值。如果你在测试集上预测，却用训练集的ȳ来算R²，结果就可能为负。

正确做法：无论你在哪个数据集上评估，R²的计算都必须使用该数据集自身的y均值。这也是为什么我们封装的score方法，要求你传入X和y，而不是只传X。

5.3 “系数符号与常识相反” —— 当数学和直觉打架

你发现，模型给出的“楼层数”系数是负的：-1.5。这意味着，楼层越高，房价反而越低？这和常识相悖。这通常不是代码错了，而是数据在说话。可能的真实原因是：

数据偏差（Bias）：你收集的数据，可能主要来自一个老旧的、高层电梯经常坏的小区。在那里，“高楼层”确实是个减分项。
混杂变量（Confounding Variable）：可能存在一个你没考虑到的、更强的变量。比如，“楼龄”。老房子往往楼层高，但楼龄大，贬值快。如果你没把“楼龄”放进模型，那么“楼层数”的负系数，实际上是在替“楼龄”背锅。

应对策略：这不是一个要立刻“修正”的bug，而是一个需要深入挖掘的业务洞察信号。你应该带着这个疑问，回到业务一线，去访谈房产经纪人，去查看具体楼盘的资料。模型没有错，它只是把你数据中隐含的、你未曾察觉的模式，赤裸裸地呈现了出来。

5.4 从“能跑通”到“能交付”：一个生产环境 checklist

当你觉得模型在Jupyter Notebook里跑通了，就万事大吉了？远远不够。一个真正能交付的模型，还需要考虑：

检查项	说明	我的建议
数据漂移（Data Drift）监控	新来的数据，其分布（如房间数的均值、方差）是否和训练时一样？如果不一样，模型性能会悄然下降。	在生产环境中，定期计算新数据的`x_bar`和`x_std`，并与训练集的值对比。设置告警阈值（如均值偏移 > 10%）。
特征工程的可复现性	你在训练时对“房间数”做了 `log(x+1