news 2026/4/18 22:28:45

机器学习 —— 主成分分析(PCA)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习 —— 主成分分析(PCA)

摘要:主成分分析(PCA)是一种无监督降维技术,通过识别数据中的主成分(原始变量的线性组合)来降低维度。其核心思想是方差最大化,确保降维后的特征保留最大信息量。PCA实现步骤包括数据标准化、协方差矩阵计算、特征分解和主成分选择。该方法在数据可视化、模型预处理和图像压缩等场景有广泛应用,优势包括显著降维和提升计算效率,但也存在信息损失和对异常值敏感等局限。PCA与LDA等监督降维算法不同,专注于整体数据方差最大化。

目录

机器学习 —— 主成分分析(PCA)

核心思想

PCA 的实现步骤

示例代码

示例说明

输出结果

PCA 的优势

PCA 的劣势

典型应用场景

与其他降维算法的区别


机器学习 —— 主成分分析(PCA)

主成分分析(PCA)是机器学习中一种常用的无监督降维技术,用于将高维数据转换为低维表示形式。PCA 通过挖掘变量之间的潜在关系,识别数据中的模式和结构,广泛应用于图像处理、数据压缩和数据可视化等场景。

PCA 的核心原理是识别数据的主成分(PCs)—— 主成分是原始变量的线性组合,能够捕捉数据中最大的变异信息。第一主成分解释了数据中最多的方差,第二主成分次之,依此类推。通过仅保留最重要的主成分来降低数据维度,PCA 可以简化问题复杂度,并提升后续机器学习算法的计算效率。

核心思想

  1. 方差最大化降维后的新特征(主成分)要尽可能携带原数据的信息,而数据的信息含量可以用方差衡量 —— 方差越大,数据的离散程度越高,特征区分度越强。第一个主成分(PC1)是原特征空间中方差最大的方向;第二个主成分(PC2)是与 PC1正交且方差次大的方向,以此类推。

  2. 正交性各主成分之间相互正交(线性无关),因此降维后能完全消除特征间的冗余和多重共线性,这也是 PCA 常用于线性回归、聚类等算法前置处理的原因。

PCA 的实现步骤

主成分分析的执行步骤如下:

  1. 数据标准化:PCA 要求数据标准化处理,使其均值为 0、方差为 1。
  2. 计算协方差矩阵:对标准化后的数据计算协方差矩阵。
  3. 求解协方差矩阵的特征向量和特征值:通过特征分解得到协方差矩阵的特征向量和对应的特征值。
  4. 选择主成分:根据特征值选择主成分 —— 特征值的大小表示对应主成分所能解释的数据变异量。
  5. 将数据投影到新特征空间:将原始数据映射到由选定主成分构成的新特征空间中。

示例代码

以下是使用 Python 的 scikit-learn 库实现 PCA 的示例:

# 导入必要的库 import numpy as np from sklearn.decomposition import PCA from sklearn.datasets import load_iris import matplotlib.pyplot as plt # 加载鸢尾花数据集 iris = load_iris() # 定义预测变量(X)和目标变量(y) X = iris.data y = iris.target # 数据标准化 X_standardized = (X - np.mean(X, axis=0)) / np.std(X, axis=0) # 创建PCA对象并拟合数据(保留2个主成分) pca = PCA(n_components=2) X_pca = pca.fit_transform(X_standardized) # 打印所选主成分的解释方差比例 print('解释方差比例:', pca.explained_variance_ratio_) # 绘制转换后的数据 plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y) plt.xlabel('第一主成分(PC1)') plt.ylabel('第二主成分(PC2)') plt.show()

示例说明

在该示例中,我们首先加载鸢尾花数据集并进行标准化处理,然后创建一个保留 2 个主成分的 PCA 模型。通过拟合数据并完成维度转换后,打印出两个主成分的解释方差比例,并以第一主成分(PC1)为 x 轴、第二主成分(PC2)为 y 轴,绘制转换后的低维数据散点图。

输出结果

运行上述代码后,将得到以下输出:

  • 解释方差比例:[0.72962445 0.22850762]
  • 输出散点图(横轴为 PC1,纵轴为 PC2,不同类别数据以不同颜色标记)

当你执行该代码时,输出会生成以下图 −

PCA 的优势

主成分分析的主要优势如下:

  1. 降维效果显著:对于高维数据集尤为实用,可在保留数据大部分原始变异信息的同时,减少特征数量。
  2. 剔除相关特征:能够识别并去除冗余的相关特征,有助于提升机器学习模型的性能。
  3. 提升数据可解释性:减少特征数量后,更便于理解和解释数据的核心规律。
  4. 缓解过拟合:通过降维减少数据冗余,可降低模型过拟合风险,提升泛化能力。
  5. 加快计算速度:特征数量减少后,机器学习模型的训练计算效率显著提升。

PCA 的劣势

主成分分析的主要劣势如下:

  1. 存在信息损失:通过将数据投影到低维空间实现降维,可能导致部分原始信息丢失。
  2. 对异常值敏感:异常值会对主成分的计算结果产生显著影响,降低分析准确性。
  3. 主成分可解释性降低:尽管减少了特征数量,但得到的主成分可能比原始特征更难直观解释其实际含义。
  4. 假设线性关系:PCA 假设特征之间存在线性关系,而实际数据中的关系可能并非线性。
  5. 依赖数据标准化:PCA 要求数据必须经过标准化处理,但在部分场景下标准化可能不可行或不适用。

典型应用场景

  1. 数据可视化将高维数据(如 100 维)降维到 2 维或 3 维,便于直观观察样本的分布和聚类情况。
  2. 模型预处理消除多重共线性,提升线性回归、SVM、聚类等算法的性能和训练速度。
  3. 图像压缩在计算机视觉中,PCA 可用于提取图像的主成分特征,实现图像的低维度表示和压缩。
  4. 特征提取替代原有的高维特征,作为新的输入特征用于分类或回归任务。

与其他降维算法的区别

  • PCA vs LDA:LDA 是有监督降维,目标是最大化类间方差、最小化类内方差,更适合分类任务;PCA 无监督,只关注整体数据的方差最大化。
  • PCA vs t-SNE/UMAP:t-SNE 和 UMAP 是非线性降维算法,擅长保留数据的局部结构,可视化效果优于 PCA,但计算复杂度高,不适合大规模数据。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 23:41:16

NifSkope终极指南:专业3D模型编辑与游戏资产管理完整教程

NifSkope终极指南:专业3D模型编辑与游戏资产管理完整教程 【免费下载链接】nifskope A git repository for nifskope. 项目地址: https://gitcode.com/gh_mirrors/ni/nifskope NifSkope作为一款专注于NetImmerse文件格式(NIF)的开源跨…

作者头像 李华
网站建设 2026/4/17 14:48:59

Magpie窗口放大工具完全指南:让每个窗口都清晰如新

Magpie窗口放大工具完全指南:让每个窗口都清晰如新 【免费下载链接】Magpie An all-purpose window upscaler for Windows 10/11. 项目地址: https://gitcode.com/gh_mirrors/mag/Magpie 还在为老游戏在4K显示器上模糊不清而烦恼?或者办公软件在超…

作者头像 李华
网站建设 2026/4/18 19:35:53

发票识别系统搭建:基于CRNN的精准字段抽取方案

发票识别系统搭建:基于CRNN的精准字段抽取方案 📌 背景与挑战:传统OCR在发票场景中的局限性 在企业财务自动化、税务合规处理和智能报销等业务中,发票信息提取是关键的第一步。传统的OCR(光学字符识别)技术…

作者头像 李华
网站建设 2026/4/17 16:05:31

音频可视化新维度:Sonic Visualiser让声音变得触手可及

音频可视化新维度:Sonic Visualiser让声音变得触手可及 【免费下载链接】sonic-visualiser Visualisation, analysis, and annotation of music audio recordings 项目地址: https://gitcode.com/gh_mirrors/so/sonic-visualiser 在音频处理的广阔天地中&…

作者头像 李华
网站建设 2026/4/17 22:38:17

AKShare金融数据接口:从数据获取到投资决策的完整解决方案

AKShare金融数据接口:从数据获取到投资决策的完整解决方案 【免费下载链接】akshare 项目地址: https://gitcode.com/gh_mirrors/aks/akshare 在当今数据驱动的投资时代,获取准确、及时的金融数据成为每个投资者面临的首要挑战。传统的数据获取方…

作者头像 李华
网站建设 2026/4/18 14:41:01

零售门店数字化:商品标签OCR识别解决方案

零售门店数字化:商品标签OCR识别解决方案 引言:零售场景下的数字化挑战与OCR技术价值 在零售门店的日常运营中,商品信息管理是核心环节之一。传统的人工录入方式不仅效率低下,还容易因视觉疲劳或字迹模糊导致错误。随着门店向数字…

作者头像 李华