news 2026/1/26 18:12:27

DAY25 常见的降维算法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DAY25 常见的降维算法

前言:

在前几天我们主要讨论了关于特征筛选和降维方面的问题,所以在开始今天对常见降维算法进行分析前,我们需要先明确一下特征筛选和降维的区别,特征筛选是关于“取舍”,它在保留特征原始意义的前提下做减法;降维是关于“重构”,它通过创造新特征来做信息浓缩。两种思想:一、先通过特征筛选去掉明显无关或噪声特征,再对剩余的特征进行降维,以达到最佳效果。二、(1)要解释、有成本、需行动→ 特征筛选(2)要性能、可视化、关系复杂→ 降维(3)不确定、有时间、想最优 → 两者都试,用验证集说话。

一、主成分析法(PCA)

PCA的处理流程

1. 对数据进行均值中心化。

2. 对中心化后的数据进行SVD。

3. 使用SVD得到的右奇异向量 `V` 作为主成分方向。

4. 使用奇异值 `S` 来评估每个主成分的重要性(解释的方差)。

5. 使用 `U*S`(或 `X_centered * V`)来获得降维后的数据表示。

PCA主要适用于那些你认为最重要的信息可以通过数据方差来捕获无监督利用特征即可),并且数据结构主要是线性的情况。

二、t-SNE

t-SNE 是一种强大的非线性降维技术,主要用于高维数据的可视化。它通过在低维空间中保持高维空间中数据点之间的局部相似性(邻域关系)来工作。与PCA关注全局方差不同,t-SNE更关注局部细节。理解它的超参数(尤其是困惑度)和结果的正确解读力式非常重要。

三、LDA

线性判别分析 (LDA) 是一种经典的有监督降维算法,也常直接用作分类器。作为降维技术时,其核心目标是找到一个低维特征子空间(即原始特征的线性组合),使得在该子空间中,不同类别的数据点尽可能地分开(类间距离最大化),而同一类别的数据点尽可能地聚集(类内方差最小化)

小结:

PCA等无监督降维方法的目标是保留数据的最大方差,这些方差大的方向不一定是对分类最有用的方向。因此,在分类任务中,LDA通常比PCA更直接有效。当然各种分析方法我们无法对其一概而论,我们需针对特定的情况去分析我们该使用什么方式,实践一下各个方法的效果。

@浙大疏锦行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/24 5:29:15

8 个开题报告工具推荐,研究生 AI 工具对比总结

8 个开题报告工具推荐,研究生 AI 工具对比总结 论文写作的“三座大山”:时间、重复率与效率的困局 对于研究生而言,开题报告不仅是学术研究的起点,更是整个论文写作过程中的关键环节。然而,在实际操作中,许…

作者头像 李华
网站建设 2026/1/20 0:34:01

基于Matlab的孔入式静压轴承程序实现

基于matlab的孔入式静压轴承程序,进油孔数为4个,采用有限差分计算轴承油膜厚度及油膜压力。 程序已调通,可直接运行。在机械工程领域,孔入式静压轴承的性能分析至关重要。今天咱就唠唠基于Matlab实现孔入式静压轴承相关计算的程序…

作者头像 李华
网站建设 2026/1/25 19:56:30

**网文数据作者分析推荐2025指南,深度解析创作趋势与读者

网文数据作者分析推荐2025指南,深度解析创作趋势与读者偏好据《2025中国网络文学发展研究报告》显示,2025年网络文学市场规模预计突破680亿元,但超过70%的作者面临创作效率瓶颈与市场趋势把握不准的难题。同时,量子探险2025年1-9月…

作者头像 李华
网站建设 2026/1/25 3:49:25

Easy Rules规则引擎:从业务逻辑到架构决策的范式革命

Easy Rules规则引擎:从业务逻辑到架构决策的范式革命 【免费下载链接】easy-rules The simple, stupid rules engine for Java 项目地址: https://gitcode.com/gh_mirrors/ea/easy-rules 在当今复杂的企业系统架构中,业务规则管理正面临着前所未有…

作者头像 李华
网站建设 2026/1/26 11:18:10

影刀使用全局附值控制操作次数

影刀 RPA 的全局附值功能是一个非常实用的功能,它允许你在流程的不同部分之间共享数据。通过全局变量,你可以在一个子流程中设置变量的值,并在另一个子流程或主流程中使用这个值,这大大提高了流程设计的灵活性和模块化程度。 如何…

作者头像 李华