别再只用Cleveland数据了！手把手教你用Python合并UCI心脏病4大数据库，提升模型泛化能力-平芜编程栈

突破数据局限：用Python整合UCI心脏病四大数据库的实战指南

在机器学习领域，我们常常陷入一种"舒适区陷阱"——习惯性地使用那些被广泛引用的标准数据集，却忽视了数据多样性对模型泛化能力的关键影响。UCI心脏病数据集就是一个典型案例：虽然包含来自四个不同医疗中心的完整数据，但绝大多数研究和教程仅使用其中的Cleveland子集。这种局限可能导致模型在实际应用中表现不佳，因为它们从未接触过来自不同地区、不同医疗体系的真实数据变异。

1. 为什么需要整合四大数据库？

数据多样性是构建稳健机器学习模型的核心要素。想象一下，如果只基于单一医院的数据训练心脏病预测模型，这个模型很可能无法适应其他地区患者的特征差异。UCI心脏病数据集包含的四个子集（Cleveland、Hungarian、Long Beach VA和Switzerland）恰恰提供了这种宝贵的多样性：

地域差异：四个医疗中心分别位于美国、匈牙利和瑞士
人口统计学差异：不同地区的患者群体在年龄、性别分布上存在差异
医疗实践差异：各地医生可能采用略有不同的诊断标准和检测方法

提示：数据整合不是简单的拼接，需要考虑特征一致性、缺失值处理和潜在偏差

2. 数据获取与初步探索

2.1 下载原始数据

UCI机器学习仓库提供了完整的原始数据文件。我们可以使用Python的requests库直接下载：

import requests import os data_urls = { 'cleveland': 'https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data', 'hungarian': 'https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.hungarian.data', 'switzerland': 'https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.switzerland.data', 'longbeach': 'https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.va.data' } for name, url in data_urls.items(): response = requests.get(url) with open(f'{name}.data', 'w') as f: f.write(response.text)

2.2 数据特征解析

四个数据集共享相同的76个原始特征，但实际研究中通常使用以下14个核心特征：

特征名	描述	数据类型	备注
age	患者年龄	数值
sex	性别	分类	1=男, 0=女
cp	胸痛类型	分类	1-4值
trestbps	静息血压	数值	mmHg
chol	血清胆固醇	数值	mg/dl
fbs	空腹血糖	分类	>120mg/dl
restecg	静息心电图	分类	0-2值
thalach	最大心率	数值
exang	运动心绞痛	分类	1=是,0=否
oldpeak	ST压低	数值
slope	ST段斜率	分类	1-3值
ca	主要血管数	分类	0-3
thal	地中海贫血	分类	3/6/7或0-2
target	心脏病诊断	分类	0-4或0-1

3. 数据清洗与整合实战

3.1 处理不一致的编码方案

不同子集对某些特征使用了不同的编码方式，特别是thal和target列。我们需要统一这些编码：

import pandas as pd def load_and_clean_data(filename): df = pd.read_csv(filename, header=None, na_values='?') # 选择常用的14个特征列 columns = ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'] df = df.iloc[:, :14] df.columns = columns # 统一thal编码 (原始有3/6/7和0/1/2两种) df['thal'] = df['thal'].replace({3:0, 6:1, 7:2}) # 统一target编码 (原始有0-4和0/1两种) df['target'] = df['target'].apply(lambda x: 1 if x > 0 else 0) return df cleveland = load_and_clean_data('cleveland.data') hungarian = load_and_clean_data('hungarian.data') swiss = load_and_clean_data('switzerland.data') longbeach = load_and_clean_data('longbeach.data')

3.2 处理缺失值与数据偏差

不同子集的缺失值比例差异显著：

Cleveland：约2%缺失值
Hungarian：约20%缺失值
Switzerland：约5%缺失值
Long Beach：约15%缺失值

我们可以采用多种策略组合处理缺失值：

删除高缺失率特征：对于某些在特定子集中大量缺失的特征，考虑整体删除
子集特定填充：对不同子集采用不同的填充策略
标记缺失：添加二进制列指示原始值是否缺失

def handle_missing(df): # 删除超过30%缺失值的行 df = df.dropna(thresh=df.shape[1]*0.7, axis=0) # 数值列用中位数填充 num_cols = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak'] for col in num_cols: df[col] = df[col].fillna(df[col].median()) # 分类列用众数填充 cat_cols = ['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal'] for col in cat_cols: df[col] = df[col].fillna(df[col].mode()[0]) return df cleveland = handle_missing(cleveland) hungarian = handle_missing(hungarian) swiss = handle_missing(swiss) longbeach = handle_missing(longbeach)

4. 数据合并与增强

4.1 添加数据来源标识

在合并前，我们添加一个标识列记录每个样本的来源：

cleveland['source'] = 'cleveland' hungarian['source'] = 'hungarian' swiss['source'] = 'switzerland' longbeach['source'] = 'longbeach' combined = pd.concat([cleveland, hungarian, swiss, longbeach], axis=0)

4.2 探索数据分布差异

合并后，我们可以分析不同来源数据的分布差异：

import matplotlib.pyplot as plt # 年龄分布对比 plt.figure(figsize=(10,6)) for source in combined['source'].unique(): subset = combined[combined['source'] == source] plt.hist(subset['age'], alpha=0.5, label=source) plt.legend() plt.title('Age Distribution by Data Source') plt.xlabel('Age') plt.ylabel('Count') plt.show()

4.3 处理类别不平衡

不同子集的心脏病阳性率存在显著差异：

Cleveland：约54%阳性
Hungarian：约60%阳性
Switzerland：约34%阳性
Long Beach：约48%阳性

我们可以采用以下策略平衡数据：

过采样少数类：使用SMOTE等技术
欠采样多数类：随机删除部分样本
类别权重：在模型训练时调整类别权重

from imblearn.over_sampling import SMOTE X = combined.drop(['target', 'source'], axis=1) y = combined['target'] smote = SMOTE(random_state=42) X_res, y_res = smote.fit_resample(X, y)

5. 模型训练与效果对比

5.1 基准模型：仅使用Cleveland数据

from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report # 仅使用Cleveland数据 X_cle = cleveland.drop(['target', 'source'], axis=1) y_cle = cleveland['target'] X_train, X_test, y_train, y_test = train_test_split(X_cle, y_cle, test_size=0.2) rf_cle = RandomForestClassifier() rf_cle.fit(X_train, y_train) print(classification_report(y_test, rf_cle.predict(X_test)))

5.2 增强模型：使用合并数据

# 使用合并后的全部数据 X_all = combined.drop(['target', 'source'], axis=1) y_all = combined['target'] X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size=0.2) rf_all = RandomForestClassifier() rf_all.fit(X_train, y_train) print(classification_report(y_test, rf_all.predict(X_test)))

5.3 跨数据集验证

真正的考验是模型在未见过的数据源上的表现：

# 训练数据：Cleveland + Hungarian train_data = pd.concat([cleveland, hungarian]) X_train = train_data.drop(['target', 'source'], axis=1) y_train = train_data['target'] # 测试数据：Switzerland + Long Beach test_data = pd.concat([swiss, longbeach]) X_test = test_data.drop(['target', 'source'], axis=1) y_test = test_data['target'] rf_cross = RandomForestClassifier() rf_cross.fit(X_train, y_train) print("Cross-dataset Performance:") print(classification_report(y_test, rf_cross.predict(X_test)))

6. 高级技巧与注意事项

6.1 处理地域偏差的进阶方法

简单的数据合并可能无法完全消除地域偏差，我们可以尝试：

域适应技术：如CORAL算法调整特征分布
分层抽样：确保训练集包含所有来源的代表性样本
源特定特征工程：添加与数据来源相关的交互特征

from sklearn.preprocessing import StandardScaler from coral import CORAL # CORAL域适应示例 scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) X_train_coral = CORAL().fit_transform(X_train_scaled, X_test_scaled)

6.2 特征重要性分析

通过分析特征重要性，我们可以了解哪些特征在不同数据源中最具预测力：

importances = rf_all.feature_importances_ features = X_all.columns indices = np.argsort(importances)[::-1] plt.figure(figsize=(12,6)) plt.title("Feature Importances") plt.bar(range(X_all.shape[1]), importances[indices], align="center") plt.xticks(range(X_all.shape[1]), features[indices], rotation=90) plt.show()

6.3 部署考虑

当将模型部署到不同地区时：

持续监控：跟踪模型在新地区的表现
增量学习：随着新数据到来逐步更新模型
区域适配：为不同地区训练特定子模型

from sklearn.linear_model import SGDClassifier # 增量学习示例 sgd = SGDClassifier(loss='log_loss') for chunk in pd.read_csv('combined_data.csv', chunksize=100): X = chunk.drop(['target', 'source'], axis=1) y = chunk['target'] sgd.partial_fit(X, y, classes=[0,1])