小白从零开始勇闯人工智能：机器学习初级篇（PCA数据降维）-平芜编程栈

小白从零开始勇闯人工智能系列
机器学习初级篇：PCA 数据降维

大家好！我们继续小白视角，一步一步把机器学习最常用的“降维神器”——PCA（Principal Component Analysis，主成分分析）讲明白。

目标读者：完全零基础或刚入门，只会基本的 Python + numpy/pandas/matplotlib 的小伙伴。

先来一个最直观的比喻（别急着看公式）

想象你手里有一堆高中生的考试成绩表：语文、数学、英语、物理、化学、生物……一共 10 科。

有些同学语文数学都高 → 明显文理兼备
有些物理化学生物都高 → 理科强
但其实很多科目之间高度相关（学好数学通常物理也更好）

如果你要用最少的“指标”来概括一个学生的整体水平，你会怎么做？

最笨的方法：保留全部 10 科 → 高维、难可视化、计算慢、容易过拟合
聪明的方法：找到 2～3 个“综合分数”，让它们尽量保留原始信息

PCA 就是自动帮你找到这几个“最能代表整体的综合分数”的算法，而且这些新分数之间互相不相关（正交）。

一句话总结 PCA 干的事：

在不丢失太多信息的前提下，把高维数据“挤”到低维（通常 2D/3D），方便可视化、加速训练、去噪、去冗余。

PCA 到底在解决什么痛点？（真实场景）

维度灾难：特征太多（几百上千维），模型训练极慢，容易过拟合
可视化需求：人眼只能很好看 2D/3D 散点图
多重共线性：特征之间高度相关，模型不稳定
去噪：很多特征其实是噪声，PCA 可以把主要信号留下
特征提取：人脸识别、图像压缩、基因表达数据……

手把手核心步骤（小白版，非数学恐怖版）

把数据标准化（最重要一步！）
不同特征量纲不同（身高 cm、工资万、年龄岁），不能直接算
→ 每列都变成均值≈0，标准差≈1（StandardScaler）
计算协方差矩阵
看哪些特征“一起变大/一起变小”（相关性强）
对协方差矩阵做特征值分解
得到：特征值（大小 = 这个方向的信息量） + 特征向量（新坐标轴方向）
按特征值从大到小排序
前几个最大的特征值对应的特征向量 = 主成分（PC1, PC2, …）
选前 k 个主成分
把原始数据投影到这 k 个新轴上 → 得到降维后的数据

Python 实战：用 sklearn 一行代码搞定（推荐小白先这么用）

我们用经典的鸢尾花数据集（150 条，4 个特征）来演示。

importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.preprocessingimportStandardScalerfromsklearn.decompositionimportPCA# 1. 加载数据iris=load_iris()X=iris.data# 4 个特征：萼片长/宽、花瓣长/宽y=iris.target# 0,1,2 三种鸢尾花feature_names=iris.feature_names# 2. 标准化（必须做！）scaler=StandardScaler()X_scaled=scaler.fit_transform(X)# 3. PCA 降到 2 维（最常见）pca=PCA(n_components=2)# 也可以写 0.95 保留 95% 方差X_pca=pca.fit_transform(X_scaled)# 4. 看看保留了多少信息print("每个主成分解释的方差比例：",pca.explained_variance_ratio_)print("总共保留的信息比例：",sum(pca.explained_variance_ratio_))# 输出示例（大概这样）：# 每个主成分解释的方差比例： [0.729 0.229]# 总共保留的信息比例： 0.958 （保留约 96% 的信息，只用 2 维！）# 5. 可视化（超级直观！）plt.figure(figsize=(8,6))scatter=plt.scatter(X_pca[:,0],X_pca[:,1],c=y,cmap='viridis',edgecolor='k',s=60)plt.xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.1%}variance)')plt.ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.1%}variance)')plt.title('Iris 数据集 PCA 降维到 2D')plt.colorbar(scatter,ticks=range(3),label='鸢尾种类 (0=setosa, 1=versicolor, 2=virginica)')plt.grid(True,linestyle='--',alpha=0.7)plt.show()

你会看到什么？
三种鸢尾花在 2D 平面上几乎完美分开！说明 PCA 非常成功地把 4 维信息压缩到了 2 维，还保留了绝大部分区分能力。

进阶一点：如何决定降到几维？（累计方差贡献率）

# 画累计解释方差曲线（肘部法）pca_full=PCA()pca_full.fit(X_scaled)cum_ratio=np.cumsum(pca_full.explained_variance_ratio_)plt.plot(range(1,len(cum_ratio)+1),cum_ratio,marker='o')plt.xlabel('主成分个数')plt.ylabel('累计解释方差比例')plt.title('PCA 累计方差解释率')plt.grid(True)plt.axhline(0.95,color='r',linestyle='--')# 常用 95% 阈值plt.show()

看到曲线在第几个主成分超过 0.9 或 0.95 时，就选那个 k

快速对比表（小白速记）

问题	原始数据 (4维)	PCA 后 (2维)
维度	高	低
特征相关性	可能强相关	主成分之间正交（不相关）
可视化	难（要画多维图）	容易（散点图）
训练速度	慢	快很多
信息损失	无	少（看你选几维）
sklearn 一行代码	-	PCA(n_components=2)