news 2026/5/30 16:57:34

7.1 机器学习基本框架:数据、假设空间、学习算法与评估

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
7.1 机器学习基本框架:数据、假设空间、学习算法与评估

7.1 机器学习基本框架:数据、假设空间、学习算法与评估

机器学习赋予计算机从经验数据中学习并改进其性能的能力,而无需进行明确的、基于规则的编程。其所有理论与应用均建立在一个统一的形式化框架之上,该框架包含四个核心要素:数据假设空间学习算法评估。本节旨在系统阐述这一基本框架的逻辑内涵及其相互作用,为深入理解后续章节的各类模型与算法奠定基础。

7.1.1 数据:学习的源头与基础

数据是机器学习过程的起点与驱动力。通常,一个数据集D DDm mm个独立同分布的样本构成,每个样本由一个特征向量x i \mathbf{x}_ixi和一个可能的标签y i y_iyi组成,记为D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D = \{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), ..., (\mathbf{x}_m, y_m)\}D={(x1,y1),(x2,y2),...,(xm,ym)}

7.1.1.1 特征与表示

特征向量x i ∈ X \mathbf{x}_i \in \mathcal{X}xiX是对现实世界对象或事件的数字化表示,其所在集合X \mathcal{X}X称为特征空间。特征工程的目标是构造一个能够有效支撑学习任务的X \mathcal{X}X。例如,在图像识别中,x i \mathbf{x}_ixi可能是一个由像素值组成的张量;在自然语言处理中,它可能是一个词袋向量或词嵌入序列。特征的质量直接影响学习任务的性能上限,即“垃圾进,垃圾出”原则。

7.1.1.2 标签与任务定义

标签y i ∈ Y y_i \in \mathcal{Y}yiY定义了学习的目标。根据Y \mathcal{Y}Y的形式,机器学习任务主要分为:

  • 监督学习Y \mathcal{Y}Y是一个离散的有限集合(分类)或连续区间(回归)。例如,手写数字识别中y i ∈ { 0 , 1 , . . . , 9 } y_i \in \{0,1,...,9\}yi{0,1,...,9},房价预测中y i ∈ R + y_i \in \mathbb{R}^+
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/29 23:41:58

力扣解题步骤

核心思路回顾通过哈希表存储「已遍历元素值 → 下标」的映射,遍历数组时计算当前元素的 “补数”(目标值 - 当前值),若补数存在于哈希表中,则直接返回结果;若不存在,将当前元素存入哈希表&#…

作者头像 李华
网站建设 2026/5/29 16:28:19

企业级中小社区疫情信息管理系统管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

摘要 近年来,全球范围内的突发公共卫生事件频发,尤其是新冠疫情的暴发,凸显了社区疫情防控信息化建设的重要性。传统社区疫情管理多依赖人工登记和纸质档案,存在效率低、数据共享困难、信息更新滞后等问题,难以应对大规…

作者头像 李华
网站建设 2026/5/27 10:27:53

我发现多中心数据术语冲突 后来用SNOMEDCT编码统一才对齐

📝 博客主页:jaxzheng的CSDN主页 目录医疗数据科学:当Excel表格遇见心跳监测仪 一、从“算术课代表”到医疗数据民工 二、AI诊断系统:当神经网络开始学中医把脉 三、可穿戴设备:当智能手表开始管我吃火锅 四、医疗大数…

作者头像 李华
网站建设 2026/5/29 18:50:01

JVM(JAVA虚拟机内存不足)

这是本人第二次遇到这个问题,打开pycharm还没有Start就撒由那拉了,报出来一堆IDE错误,看都看不懂,上次遇到是大模型的指导改了配置文件依然没解决,这次跟着大佬操作,电脑十分丝滑 步骤(win11&am…

作者头像 李华
网站建设 2026/5/30 6:07:11

类变量和全局变量的生命周期分别是多久?

类变量和全局变量的生命周期核心差异在于创建时机、存活范围、销毁条件,本质由它们的 “归属对象”(类 vs 模块)决定,以下是分维度的精准解析:一、先明确核心前提Python 中变量的生命周期依附于其所属的命名空间对象&a…

作者头像 李华