Python数据清洗实战：机器学习预处理关键技术-平芜编程栈

1. 机器学习数据清洗基础指南

数据清洗是机器学习项目中最关键但最容易被忽视的环节之一。作为从业十多年的数据科学家，我见过太多项目因为基础数据清洗不到位而导致模型性能虚高或完全失效的情况。本文将带你系统掌握Python环境下必须执行的几种基础数据清洗技术。

数据清洗的本质是识别并修正数据集中的错误，这些错误可能对预测模型产生负面影响。与花哨的特征工程不同，数据清洗更多依赖于对数据本身的深入理解。就像烹饪前必须清洗食材一样，没有干净的数据，再高级的算法也难以发挥真正价值。

2. 数据集准备与理解

2.1 油污检测数据集分析

我们使用两个经典数据集作为示例。首先是油污检测数据集，包含937个样本，每个样本有48个计算机视觉提取的特征，用于判断卫星图像区块是否包含油污泄漏。

from pandas import read_csv oil_spill_path = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/oil-spill.csv' oil_df = read_csv(oil_spill_path, header=None) print(oil_df.shape) # (937, 50)

查看前几行数据会发现，各特征尺度差异很大——有的值达到数百万，有的则是小于1的小数。这种尺度差异本身就需要后续处理，但首先我们要关注更基础的问题。

2.2 鸢尾花数据集特点

第二个是经典的鸢尾花数据集，包含150个样本，4个特征（花萼和花瓣的长度宽度）和1个分类标签（鸢尾花种类）。

iris_path = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv' iris_df = read_csv(iris_path, header=None) print(iris_df.shape) # (150, 5)

这个数据集的特点是所有特征都是数值型且尺度相近，但存在重复行的问题，非常适合演示重复数据处理。

3. 单值列识别与处理

3.1 单值列的问题诊断

单值列（所有行值相同）是数据集中最隐蔽的"陷阱"之一。这类列不包含任何有用信息，却可能干扰模型训练。

# 使用numpy统计每列唯一值数量 from numpy import unique for i in range(oil_df.shape[1]): print(f"Column {i}: {len(unique(oil_df.iloc[:, i]))} unique values")

输出显示第22列只有1个唯一值，这意味着该列所有行的值完全相同。在实际项目中，我遇到过因为保留这样的列导致PCA计算报错的案例。

3.2 单值列的删除方法

Pandas提供了更简洁的删除方案：

# 统计每列唯一值数量 counts = oil_df.nunique() # 标记唯一值为1的列 to_drop = [i for i, v in enumerate(counts) if v == 1] # 执行删除 clean_oil = oil_df.drop(to_drop, axis=1) print(f"原始形状: {oil_df.shape}, 清洗后: {clean_oil.shape}")

注意：删除列后务必检查数据完整性。我曾遇到索引错乱导致后续处理出错的情况，建议添加reset_index(drop=True)重置索引。

4. 低方差列处理策略

4.1 低方差列的识别

比单值列更常见的是低方差列——虽然不完全相同，但取值非常接近。这类列信息量极低，可能影响模型表现。

# 计算每列唯一值占比 for i in range(clean_oil.shape[1]): num_unique = len(unique(clean_oil.iloc[:, i])) pct = num_unique / clean_oil.shape[0] * 100 if pct < 1: # 唯一值占比小于1% print(f"Column {i}: {num_unique} values ({pct:.1f}%)")

4.2 方差阈值法

scikit-learn的VarianceThreshold可以自动处理低方差列：

from sklearn.feature_selection import VarianceThreshold X = clean_oil.iloc[:, :-1].values selector = VarianceThreshold(threshold=0.1) # 设置方差阈值 X_sel = selector.fit_transform(X) print(f"特征数从{X.shape[1]}减少到{X_sel.shape[1]}")

在实际项目中，我通常先用这个方法快速过滤明显无用的特征，再人工检查保留的特征是否合理。

5. 重复数据处理实战

5.1 重复行检测

鸢尾花数据集中的重复行问题很典型：

# 检测完全重复的行 duplicates = iris_df.duplicated() print(f"发现{duplicates.sum()}个完全重复的行") # 查看具体重复行 print(iris_df[iris_df.duplicated(keep=False)].sort_values(by=0))

5.2 重复行处理策略

处理重复数据需要谨慎：

# 方法1：直接删除所有重复行（保留第一个） clean_iris = iris_df.drop_duplicates() # 方法2：标记重复行但不立即删除 iris_df['is_duplicate'] = iris_df.duplicated() # 方法3：对关键列检查重复 key_columns = [0, 1, 2, 3] # 仅特征列 iris_df['key_duplicate'] = iris_df.duplicated(subset=key_columns)

经验分享：在金融风控项目中，我曾发现表面重复的数据实际是同一用户不同时间点的记录。盲目删除会导致信息损失，所以务必结合业务背景判断。

6. 高级清洗技巧

6.1 基于统计的异常值处理

除了基础清洗，我通常会检查异常值：

# 计算每列的Z-score from scipy import stats z_scores = stats.zscore(clean_oil.select_dtypes(include=['float64'])) abs_z_scores = np.abs(z_scores) filtered_entries = (abs_z_scores < 3).all(axis=1) clean_oil = clean_oil[filtered_entries]

6.2 自动化清洗流水线

对于经常处理类似结构数据的场景，可以构建清洗流水线：

from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer preprocessor = Pipeline([ ('variance_threshold', VarianceThreshold(threshold=0.1)), ('imputer', SimpleImputer(strategy='median')), ('scaler', StandardScaler()) ])

7. 常见问题与解决方案

7.1 内存不足问题

处理大型数据集时，内存可能成为瓶颈。我的解决方案：

# 使用低内存模式读取数据 chunksize = 10000 for chunk in pd.read_csv('large_file.csv', chunksize=chunksize): process(chunk) # 或者使用dtype参数优化内存 dtypes = {'col1': 'float32', 'col2': 'category'} df = pd.read_csv('data.csv', dtype=dtypes)

7.2 类别型数据处理

对于混合类型数据：

# 自动识别类型转换 converters = { 'date_col': pd.to_datetime, 'category_col': lambda x: pd.Categorical(x) } df = pd.read_csv('data.csv', converters=converters)

7.3 时间序列数据清洗

时间数据的特殊处理：

# 处理时间序列缺失值 df['timestamp'] = pd.to_datetime(df['timestamp']) df = df.set_index('timestamp').resample('D').ffill()

8. 质量验证与效果评估

清洗后必须验证数据质量：

def check_quality(df): report = { 'remaining_rows': df.shape[0], 'remaining_columns': df.shape[1], 'missing_values': df.isnull().sum().sum(), 'duplicate_rows': df.duplicated().sum() } return pd.DataFrame.from_dict(report, orient='index') print(check_quality(clean_oil))

在实际项目中，我会保存清洗前后的统计数据对比，作为项目文档的一部分。

9. 工程实践建议

根据我的项目经验，有几个关键建议：

建立数据清洗日志：记录每个清洗步骤和决策原因
版本控制：保存清洗前后的数据版本
自动化测试：为数据质量编写断言测试
可视化验证：清洗前后关键特征的分布对比

# 示例：分布对比可视化 import matplotlib.pyplot as plt fig, axes = plt.subplots(1, 2, figsize=(12, 4)) oil_df.iloc[:, 1].plot(kind='hist', ax=axes[0], title='Original') clean_oil.iloc[:, 1].plot(kind='hist', ax=axes[1], title='Cleaned') plt.show()

数据清洗不是一次性的工作，而是迭代过程。在我的实践中，通常需要3-5轮清洗才能得到理想的数据质量。每次模型性能评估后，都可能发现新的数据问题需要进一步清洗。

记住，没有完美的清洗方案，只有适合当前项目和业务需求的方案。关键是要建立系统化的清洗流程，并详细记录每个决策，这样才能保证机器学习项目的可重复性和可靠性。