news 2026/6/5 10:48:54

机器学习 —— 缺失值比例法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习 —— 缺失值比例法

摘要:缺失值比例法是一种机器学习特征选择技术,用于处理数据集中缺失值比例过高的特征。该方法通过计算各特征缺失比例并设定阈值,剔除高缺失值特征,从而优化模型性能。实施步骤包括计算缺失比例、设定阈值、剔除特征和模型训练。不同缺失比例区间(如<5%、5%-20%、20%-80%、>80%)需采取不同处理策略。该方法虽能节省计算资源、简化模型结构,但也可能导致信息丢失和选择偏差。实际应用中需注意区分缺失类型、避免数据泄露,并根据业务需求灵活调整阈值。

目录

机器学习 —— 缺失值比例法

缺失值比例法的核心原理

缺失值比例法的实施步骤

常见阈值划分与对应策略

示例

输出结果

关键注意事项

缺失值比例法的优势

缺失值比例法的劣势


机器学习 —— 缺失值比例法

缺失值比例法(Missing Values Ratio)是机器学习中一种特征选择技术,用于识别并剔除数据集中缺失值占比过高的特征。该技术通过减少模型训练所用的特征数量,避免缺失值导致的偏差问题,进而提升模型性能。

缺失值比例法的核心原理

计算数据集中每个特征的缺失值占比,剔除占比超过设定阈值的特征。这是因为缺失值占比高的特征对目标变量的预测价值较低,还可能给模型引入偏差。

缺失值比例法的实施步骤

  1. 计算数据集中每个特征的缺失值占比;
  2. 设定特征缺失值占比的阈值;
  3. 剔除缺失值占比超过阈值的特征;
  4. 使用剩余特征训练机器学习模型。

常见阈值划分与对应策略

缺失比例区间推荐处理策略适用场景说明
< 5%直接删除缺失样本样本量充足,缺失是随机的,删除后对数据分布影响极小
5% ~ 20%填充缺失值样本量有限,缺失非完全随机;可根据特征类型选均值 / 中位数(数值型)、众数(分类型),或模型预测填充
20% ~ 80%将缺失作为新特征 + 填充缺失可能隐含业务意义(如 “未填写” 本身是一种状态);新增二分类特征(0 = 无缺失,1 = 有缺失),再对原特征填充
> 80%直接删除该特征特征有效信息极少,保留会引入大量噪声,对模型无正向贡献

示例

以下是在 Python 中实现缺失值比例法的示例代码:

# 导入必要的库 import numpy as np # 加载糖尿病数据集 diabetes = np.genfromtxt(r'C:\Users\Leekha\Desktop\diabetes.csv', delimiter=',') # 定义预测变量(X)和目标变量(y) X = diabetes[:, :-1] y = diabetes[:, -1] # 计算每个特征的缺失值占比 missing_percentages = np.isnan(X).mean(axis=0) # 设定缺失值占比阈值 threshold = 0.5 # 找出缺失值占比超过阈值的特征索引 high_missing_indices = [i for i, percentage in enumerate(missing_percentages) if percentage > threshold] # 从数据集中剔除高缺失值特征 X_filtered = np.delete(X, high_missing_indices, axis=1) # 打印筛选后数据集的形状 print('筛选后数据集的形状:', X_filtered.shape)

上述代码对糖尿病数据集执行缺失值比例法,剔除了缺失值占比超过阈值的特征。

输出结果

运行上述代码后,将得到以下输出:

筛选后数据集的形状: (769, 8)

关键注意事项

  1. 区分缺失类型缺失值分为完全随机缺失(MCAR)随机缺失(MAR)非随机缺失(MNAR)
    • MCAR:缺失与特征、标签无关(如数据录入失误),可直接删样本;
    • MNAR:缺失与特征本身相关(如低收入人群不愿填写收入),需优先将缺失作为新特征。
  2. 避免数据泄露填充操作(尤其是用统计量填充)必须在训练集上计算统计量,再用该统计量填充验证集和测试集,否则会引入数据泄露。
  3. 阈值灵活调整若某特征是核心业务特征(如信用评分模型中的 “逾期次数”),即使缺失比例达 30%,也不宜直接删除,可优先选择模型预测填充。

缺失值比例法的优势

  1. 节省计算资源:特征数量减少后,训练机器学习模型所需的计算资源随之降低;
  2. 提升模型性能:剔除高缺失值特征有助于改善机器学习模型的表现;
  3. 简化模型结构:特征数量更少,模型更易于解释和理解;
  4. 减少偏差:剔除高缺失值特征可降低模型中的偏差。

缺失值比例法的劣势

  1. 信息丢失:可能会剔除包含重要信息的特征,导致数据集中的信息损失;
  2. 影响非缺失数据:若被剔除的高缺失值特征对预测因变量至关重要,可能会对非缺失数据的利用产生负面影响;
  3. 影响因变量预测:若高缺失值特征是预测因变量的关键因素,剔除后可能会降低因变量的预测效果;
  4. 引入选择偏差:若剔除了对预测因变量有重要作用的特征,可能会给模型带来选择偏差。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/29 23:42:29

安防监控智能化:M2FP识别人体部位辅助行为分析

安防监控智能化&#xff1a;M2FP识别人体部位辅助行为分析 在智能安防领域&#xff0c;传统监控系统正逐步向智能化、语义化演进。仅靠“是否有人”或“移动检测”已无法满足复杂场景下的安全需求。如何从视频流中提取更精细的行为线索&#xff1f;关键在于对人员的精细化结构…

作者头像 李华
网站建设 2026/5/30 8:49:01

M2FP在淘宝搭配推荐系统的潜在应用场景分析

M2FP在淘宝搭配推荐系统的潜在应用场景分析 &#x1f4cc; 引言&#xff1a;从人体解析到智能搭配的跨越 随着电商行业对个性化体验需求的不断升级&#xff0c;传统基于商品标签和用户行为的推荐系统已逐渐触及天花板。尤其是在服饰类目中&#xff0c;用户的审美偏好高度依赖视…

作者头像 李华
网站建设 2026/5/30 8:48:26

Springboot项目中使用POI操作Excel(详细教程系列2/3)

文章目录1、基于模板导出列表数据1.1、需求1.2、思路1.3、实现2、导出用户详细数据2.1、 需求2.2、思路3、导出数据带图片、公式3.1、导出图片3.2、导出公式1、基于模板导出列表数据 1.1、需求 按照以下样式导出excel&#xff1a; 1.2、思路 首先准备一个excel模板&#x…

作者头像 李华
网站建设 2026/6/2 8:37:05

在MT8791 5G硬件平台上舍弃安卓系统-运行OpenWRT系统

在MT8791 5G硬件平台上舍弃安卓系统-运行OpenWRT系统 希望在MT8791这款联发科5G硬件平台上舍弃安卓系统&#xff0c;仅运行OpenWRT系统&#xff0c;核心是实现5G功能正常、系统轻量化且稳定运行。 MT8791作为联发科旗舰级5G SoC&#xff08;Cortex-A78/A55架构&#xff0c;集成…

作者头像 李华
网站建设 2026/5/30 9:36:32

<!doctype html><html lang=“zh-cn“>如何正确处理?

如何正确处理&#xff1f;AI 智能中英翻译服务的工程化实践 &#x1f4cc; 项目背景与技术选型动因 在跨语言交流日益频繁的今天&#xff0c;高质量、低延迟的中英智能翻译服务已成为众多国际化产品不可或缺的一环。尽管市面上存在大量通用翻译 API&#xff08;如 Google Trans…

作者头像 李华
网站建设 2026/6/3 11:03:25

基于单片机的智能小车设计

基于单片机的智能小车设计 第一章 系统整体架构设计 基于单片机的智能小车以“灵活控制、多模式运行、低成本实现”为核心目标&#xff0c;采用“感知-决策-驱动-交互”的四层架构。系统核心包含五大功能模块&#xff1a;单片机控制模块、驱动模块、避障模块、循迹模块及交互模…

作者头像 李华