news 2026/3/27 3:11:40

DAY27 pipeline管道

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DAY27 pipeline管道

一、知识回顾:

1、转化器和估计器的概念

(1)转换器

转化器通俗的来说就是对数据进行预处理的工具,转换器的特点是无状态的,即它们不会存储任何关于数据的状态信息(指的是不存储内参),根据输入数据学习转换规则(比如函数规律、外参),并将其应用于新的数据。

代码示例:

from sklearn.preprocessing import StandardScaler # 初始化转换器 scaler = StandardScaler() # 1. 学习训练数据的缩放规则(计算均值和标准差),本身不存储数据 scaler.fit(X_train) # 2. 应用规则到训练数据和测试数据 X_train_scaled = scaler.transform(X_train)

(2)估计器

估计器是实现机器学习算法的对象或类。估计器的主要方法是fit和predict。fit方法用于根据输入数据,学习模型的参数和规律,而predict方法用于对新的未标记样本进行预测。估计器的特点是有状态的,它们在训练过程中存储了关于数据的状态信息,以便在预测阶段使用。

参考代码:

from sklearn.linear_model import LinearRegression # 创建一个回归器 model = LinearRegression() # 在训练集上训练模型 model.fit(X_train_scaled, y_train) # 对测试集进行预测 y_pred = model.predict(X_test_scaled)

2、管道工程

机器学习的管道机制通过将多个转换器和估计器按顺序连接在一起,可以构建一个完整的数据处理和模型训练流程。具体而言,在管道机制中,可以使用Pipeline类来组织和连接不同的转换器和估计器。Pipeline类提供了一种简单的方式来定义和管理机器学习任务的流程。

二、pipeline管道架构的搭建

1、导入基础库、 Pipeline 和相关预处理工具、机器学习模型和评估工具,并加载原始数据。

2、分离特征和标签,划分数据集

3、定义预处理步骤

(1)识别原始的 object 列

非数值型->离散变量:

(2)构建处理有序特征的 Pipeline:先填充缺失值,再进行有序编码

(3)构建处理标称特征的 Pipeline:先填充缺失值,再进行独热编码

连续性数值

(4)直接从所有列中排除已知的有序和标称特征,构建处理连续特征的 Pipeline: 先填充缺失值,再进行标准化。

(5)基于以上形成的三种Pipeline构建 ColumnTransformer,将不同的预处理应用于不同的列子集,构造一个完备的转化器。

(6)构建完整的 Pipeline,将预处理器和模型串联起来(加入估计器

(7)使用 Pipeline 对模型进行训练和评估。

@浙大疏锦行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 11:04:40

II CZOI Round 7P14081 「CZOI-R7」炸弹游戏

题目描述花火要和你在晖长石号上玩一个游戏!规则是这样的:晖长石号可以被视为一个 个点组成的图,初始的时候没有任何边。你可以在这 个点之间连 条无向边,不允许有重边和自环。花火会在这 个点中选出 个点放炸弹。为了不让你在拆炸…

作者头像 李华
网站建设 2026/3/27 14:35:30

【打靶日记】VulNyx 之 Listen

主机发现 ┌──(root㉿xhh)-[~/Desktop/xhh/VluNyx/listen] └─# arp-scan -I eth1 -l192.168.56.151 08:00:27:1b:16:5c PCS Systemtechnik GmbH主机地址为 端口扫描 ┌──(root㉿xhh)-[~/Desktop/xhh/VluNyx/listen] └─# nmap -p- 192.168.56.151 …

作者头像 李华
网站建设 2026/3/24 14:20:48

无人驾驶车辆轨迹跟踪与模型预测控制第二版配套程序整理分享

无人驾驶车辆轨迹跟踪与模型预测控制第二版书中配套程序整理,包括MATLAB simulink模型与Carsim par文件。 一共从第二章到第八章。 已经完全适配Carsim2019与MATLAB2018a以上版本,最好为MATLAB2021a。 包括相关的电子资料。 非常适合学习模型预测控制&am…

作者头像 李华
网站建设 2026/3/15 8:11:48

Cadence 1.8V LDO电路设计:从带隙基准到完整实现

cadance 1.8v LDO电路 cadance virtuoso 设计 模拟电路设计 LDO带隙基准电路设计 带设计报告(14页word) 基于tsmc18工艺 模拟ic设计 bandgapLDO 1.8v LDO电路 包含工程文件和报告 可以直接打开最近在模拟IC设计的领域里摸爬滚打,深入研究了基…

作者头像 李华
网站建设 2026/3/22 22:45:01

Realme Narzo 90系列印度发布:配备7000mAh电池与50MP摄像头,售价公布

Realme Narzo 90系列印度发布:配备7000mAh电池与50MP摄像头,售价公布 Realme扩充中端产品线 Realme在印度发布了Narzo 90系列,通过Realme Narzo 90 5G和Narzo 90x 5G扩充其中端智能手机阵容。两款机型均配备7000mAh大电池,支持60W…

作者头像 李华
网站建设 2026/3/8 3:50:54

硬核优化5连击,性能暴涨300%!附开箱即用模板,小白也能秒上手!

文为CUDA并行规约系列文章的下篇,本文介绍了5种并行规约算法的实现,并从硬件的角度对它们进行分析和优化,最终给出一个开箱即用的模板代码及其使用示例。勘误首先是一个勘误,在上篇中存在一个拼写错误,线程束的正确单词…

作者头像 李华