news 2026/4/26 7:49:55

03.统计学机器学习

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
03.统计学机器学习

统计学机器学习

简介:什么是机器学习中的统计思维?

在当今的生成式 AI 时代,我们看到从业者构建机器学习 (ML) 模型,从简单的回归到复杂而精密的神经网络和生成式大型语言模型 (LLM)。我们还看到数据科学和数据分析被广泛用于预测客户流失、推荐系统和其他用例。然而,尽管机器学习 (ML) 模型看起来像是在海量数据集和强大的算法上运行,但深入了解,它们是一个统计过程。

机器学习建立在统计技术和数学工具(包括贝叶斯方法、线性代数和验证策略)的基础上,这些技术和工具为该过程提供了结构和严谨性。无论是在 Python 中构建非线性分类器、调整推荐系统还是开发生成式模型,您都是在应用统计机器学习的核心原则。

无论何时培训模型,您都是在根据数据估计参数。测试时,您可能会问:这种规律是真实的,还是随机噪声?我们如何使用评估指标来量化误差?这些都是统计问题。统计测试流程有助于我们在构建和解释模型指标中融入信心。了解这些先决条件不仅是基础,而且对于构建基于计算机科学和数学推理的、强大且可解释的 AI 系统至关重要。

本文解读了现代 ML 背后的统计支柱,不仅为您揭开数学的神秘面纱,还为您提供了自信地构建、调试和解释机器学习系统所需的心智模型。

我们将介绍六个相互关联的概念:

  1. **统计学:**从根本上来说,什么是统计学以及它在现代 AI 中如何应用?
  2. **概率:**如何量化数据的不确定性?
  3. **分布:**如何为数据行为建模?

什么是统计学?

统计学是一门从数据中提取洞察分析的科学。它通过组织、分析和解释信息来发现规律,并在不确定的情况下做出决策。在数据科学和机器学习算法的背景下,统计学为理解数据行为、指导模型选择和评估结果提供了数学基础。它将杂乱、嘈杂的数据集转化为可操作的情报。

现代机器学习建立在统计方法之上。无论您应用监督学习(例如回归或分类)、无监督学习(例如聚类)还是强化学习,您都是在使用基于统计推理的工具。统计学使我们能够量化不确定性、从样本中进行概括并得出关于更广泛人群的结论 — 所有这些对于构建值得信赖的人工智能 (AI) 系统都至关重要。

描述性统计:了解基础知识

在训练模型之前,我们会进行探索性数据分析 (EDA),这是一个依靠描述性统计来总结数据关键特征的过程。这些摘要告诉我们每个功能的集中趋势和变量,帮助识别异常值、数据质量和预处理需求。了解这些特性是构建有效模型和选择合适机器学习算法的先决条件。

主要度量:
  • 平均数(平均值):

数值的算术平均值。常见于测量中心性和均方误差 (MSE) 等损失函数。

示例:如果客户购买价值不断增加,则平均值会检测到行为的变化。

  • 中位数:

数据排序时的中间值。对异常值比对平均值更具有稳健性。

示例:在收入数据中,中位数更能反映存在偏差财富的“典型”案例。

  • 模式:

最常出现的值。适用于分类功能或多数投票(如某些集成方法)。

示例:查找网站访问者最常用的浏览器。

  • 标准差 (SD):

测量值与平均值的分散程度。低 SD 表示数据点聚集在平均值附近,而高 SD 表示变量较大。

示例:在模型验证中,方差较大的功能可能需要标准化,以避免在基于距离的算法(如 k 最近邻算法)中压倒其他功能。

  • 四分位距 (IQR):

75 和 25 百分位之间的范围 (Q3 - Q1)。它捕捉中间 50% 的数据,可用于检测异常值。

示例:在客户细分任务中,支出的高 IQR 可能表明子组之间的行为不一致。

<
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 13:16:27

[SDOI2016] 征途题解

P4072 [SDOI2016] 征途 题目描述 Pine 开始了从 SSS 地到 TTT 地的征途。 从 SSS 地到 TTT 地的路可以划分成 nnn 段&#xff0c;相邻两段路的分界点设有休息站。 Pine 计划用 mmm 天到达 TTT 地。除第 mmm 天外&#xff0c;每一天晚上 Pine 都必须在休息站过夜。所以&…

作者头像 李华
网站建设 2026/4/26 4:30:26

你的测试团队为何倦怠?重塑动机的心理学家方案

当代码遇见人心 在软件测试领域&#xff0c;我们常聚焦于缺陷追踪、用例设计或自动化脚本&#xff0c;却鲜少深入探讨测试活动背后的核心驱动力——人的动机。根据自我决定理论&#xff0c;人类行为受自主性、能力感与归属感三大心理需求影响。对测试工程师而言&#xff0c;动…

作者头像 李华
网站建设 2026/4/24 1:57:25

测试变革的推动:从执行者到价值创造者的演进

在数字化转型加速的今天&#xff0c;软件已渗透至各行各业&#xff0c;从金融交易到医疗健康&#xff0c;从智能家居到自动驾驶&#xff0c;软件的可靠性与安全性直接关系到用户体验乃至生命财产安全。作为软件质量的守护者&#xff0c;测试从业者正面临前所未有的挑战与机遇。…

作者头像 李华
网站建设 2026/4/21 2:37:26

SQL必会必知整理-12-使用子查询

12.1 子查询任何SQL语句都是查询。但此术语一般指SELECT语句。SQL还允许创建子查询&#xff08;subquery&#xff09;&#xff0c;即嵌套在其他查询中的查询。12.2 利用子查询进行过滤SELECT cust_id FROM orders WHERE order_num IN (SELECT order_numFROM orderitemsWHERE pr…

作者头像 李华
网站建设 2026/4/25 23:24:04

SSE换环境导致502问题

华为云 必须加固定请求头 headers.add("Content-Type", "text/event-stream");headers.add("Transfer-Encoding", "chunked");阿里云 // 阿里云不可以加 Transfer-Encoding&#xff0c;不然阿里云原生网关报错 502 // 可能原因 阿里云…

作者头像 李华
网站建设 2026/4/25 10:27:48

同花顺短线大赚副图 源码分享

{}IF(PERIODNAME<>"日线") { 统计:"该指标只在日线周期下有效。"; RETURN; } r:((ZDMR[-1]BDMR[-1])-(ZDMC[-1]BDMC[-1]))/SHGZG*100; 大单净量:r; D3:EMA(EMA(r,30),3)*30,color00ffff; D5:EMA(EMA(D3,5),3),colorff00cc; D10:EMA(EMA(D3,10),3),co…

作者头像 李华