news 2026/5/14 19:16:59

9.2 降维技术对比:PCA、LDA、t-SNE、UMAP与自编码器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
9.2 降维技术对比:PCA、LDA、t-SNE、UMAP与自编码器

9.2 降维技术对比:PCA、LDA、t-SNE、UMAP与自编码器

降维是机器学习与数据科学中的一项核心技术,旨在将高维数据映射到低维空间,同时尽可能保留数据的关键信息。其动机在于缓解“维数灾难”、去除噪声与冗余、实现数据可视化,并为后续的建模任务提升计算效率与模型性能。降维方法根据是否利用标签信息可分为无监督与有监督;根据映射函数是否为线性可分为线性与非线性。本节将系统阐述并对比五种代表性降维技术:经典的线性无监督方法主成分分析、线性有监督方法线性判别分析、现代非线性流形学习方法t-SNEUMAP,以及基于深度学习的非线性方法自编码器

9.2.1 主成分分析

主成分分析(PCA)是最经典、应用最广泛的无监督线性降维方法。其核心思想是通过正交变换,将一组可能存在相关性的变量转换为一组线性不相关的变量(即主成分),其中第一个主成分具有最大的方差,后续每个成分在与其前序成分正交的条件下,方差依次递减[1]。

9.2.1.1 最大方差形式化与求解

给定中心化后的数据矩阵X∈Rn×d\mathbf{X} \in \mathbb{R}^{n \times d}XRn×dnnn个样本,ddd个特征,且列均值为零),PCA寻找一个投影方向w1\mathbf{w}_1w1(单位向量),使得投影后数据的方差最大化:
max⁡∥w1∥=11n∥Xw1∥2=w1TΣw1 \max_{\|\mathbf{w}_1\|=1} \frac{1}{n} \|\mathbf{X}\mathbf{w}_1\|^2 = \mathbf{w}_1^T \mathbf{\Sigma} \mathbf{w}_1w1=1maxn1Xw12=w1TΣw1
其中Σ=1nXTX\mathbf{\Sigma} = \frac{1}{n}\mathbf{X}^T\mathbf{X}Σ=n1XTX是样本协方差矩阵。这是一个瑞利商问题,最优解w1\mathbf{w}_1w1Σ\mathbf{\Sigma}Σ的最大特征值对应的特征向量。第二主成分方向w2\mathbf{w}_2w2在满足与w1\mathbf{w}_1w1正交的条件下,最大化剩余方差,即Σ\mathbf{\Sigma}Σ的第二大特征值对应的特征向量,以此类推。

因此,PCA的解可以通过对Σ\mathbf{\Sigma}Σ(或等价地对XTX\mathbf{X}^T\mathbf{X}XTX)进行特征值分解获得。降维后的kkk维(k<dk < dk<d)表示为:
Z=XWk \mathbf{Z} = \mathbf{X} \mathbf{W}_kZ=XWk
其中Wk∈Rd×k\mathbf{W}_k \in \mathbb{R}^{d \times k}WkRd×k的列由前kkk个最大特征值对应的特征向量构成。

9.2.1.2 最小重构误差视角与应用

PCA等价于寻找一个kkk维子空间,使得数据点到该子空间的投影的重构误差(原始数据与重构数据之间的均方距离)最小。重构公式为X^=ZWkT\hat{\mathbf{X}} = \mathbf{Z} \mathbf{W}_k^TX^=ZWkT

PCA的关键特性包括:1) 各主成分互不相关;2) 保留了数据中的全局方差结构;3) 对数据的尺度敏感,通常需先进行标准化。其应用广泛,包括数据压缩、去噪、可视化以及作为其他机器学习模型(如分类、回归)的预处理步骤。选择主成分数量kkk时,可依据累计方差贡献率(如保留95%的方差)或观察特征值大小的“拐点”。

9.2.2 线性判别分析

与PCA不同,线性判别分析(LDA)是一种有监督的线性降维方法,其目标不是保留最大方差,而是最大化类间散度类内散度的比值,从而使降维后的数据在不同类别上获得最佳的分离性[2]。

9.2.2.1 目标函数与求解

假设共有CC

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 10:35:23

Langchain-Chatchat向量检索性能优化:GPU加速与embedding模型选择

Langchain-Chatchat向量检索性能优化&#xff1a;GPU加速与embedding模型选择 在企业构建智能知识库系统的过程中&#xff0c;一个常见的挑战是&#xff1a;如何让大语言模型既能准确理解内部文档的复杂语义&#xff0c;又能在海量数据中实现“秒回”级别的响应&#xff1f;尤其…

作者头像 李华
网站建设 2026/5/12 1:58:26

Kotaemon日志轮转与存储优化技巧

Kotaemon日志轮转与存储优化技巧在工业物联网设备长期运行的实践中&#xff0c;一个看似不起眼的设计细节——日志管理&#xff0c;往往成为决定系统稳定性的关键因素。我们曾遇到某款边缘网关上线半年后频繁宕机&#xff0c;排查发现并非软件缺陷&#xff0c;而是SD卡因持续高…

作者头像 李华
网站建设 2026/5/13 16:21:15

Kotaemon后端API设计规范:RESTful风格清晰易用

Kotaemon后端API设计规范&#xff1a;RESTful风格清晰易用在现代软件开发中&#xff0c;一个系统能否高效协作、快速迭代&#xff0c;往往不取决于其功能有多强大&#xff0c;而在于它的接口是否“好懂”。尤其是在微服务架构和前后端分离日益普及的今天&#xff0c;API 已经不…

作者头像 李华
网站建设 2026/5/11 7:14:09

Kotaemon能否用于剧本杀剧情设计?团队共创

剧本杀创作困局&#xff1a;当AI遇上团队共创&#xff0c;Kotaemon能带来什么新可能&#xff1f;你有没有经历过这样的剧本杀创作场景&#xff1f;一群人围坐&#xff0c;脑暴三小时&#xff0c;白板上画满了线索关系图&#xff0c;却还是卡在“动机不够强”或“反转太生硬”的…

作者头像 李华
网站建设 2026/5/11 13:51:03

Java计算机毕设之基于springboot+vue的大学生就业招聘系统的设计与实现基于SpringBoot的校园招聘信息管理系统的设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/5/11 13:51:04

FaceFusion如何优化戴太阳镜时的眼部区域融合?

FaceFusion如何优化戴太阳镜时的眼部区域融合&#xff1f; 在数字人、虚拟主播和影视特效日益普及的今天&#xff0c;人脸替换技术已不再局限于简单的“换脸”娱乐。以 FaceFusion 为代表的高保真人脸融合系统&#xff0c;正逐步成为专业内容创作的核心工具。然而&#xff0c;一…

作者头像 李华