从Kaggle实战看分类变量：如何用‘组合特征’和‘未知类别’策略提升模型AUC-平芜编程栈

从Kaggle实战看分类变量：如何用‘组合特征’和‘未知类别’策略提升模型AUC

在数据科学竞赛和实际业务场景中，分类变量的处理往往是决定模型性能的关键因素之一。面对高维度、稀疏的分类特征，传统的编码方式可能无法充分挖掘数据中的潜在信息。本文将深入探讨两种提升模型AUC的有效策略：组合特征构建和未知类别处理，结合Kaggle竞赛中的实战案例，展示如何通过创新性的特征工程方法显著提升模型表现。

1. 分类变量基础与挑战

分类变量（Categorical Variables）是指具有有限数量离散取值的变量，通常分为无序变量（如颜色、品牌）和有序变量（如评分等级）。在机器学习任务中，计算机无法直接处理文本形式的分类变量，必须将其转换为数值形式。这一过程看似简单，实则暗藏诸多挑战：

高基数问题：当某个分类变量具有大量唯一值时（如用户ID、邮政编码），传统的独热编码会导致特征空间爆炸
稀疏性问题：许多分类变量的取值分布极不均衡，某些类别可能只出现几次
未知类别问题：测试集中可能出现训练集中未见过的新类别
信息损失：简单的编码方式可能无法保留类别之间的潜在关系

以Kaggle竞赛数据集"cat-in-the-dat-ii"为例，其中包含23个分类变量，类型包括二元变量、无序变量、有序变量和循环变量。面对这样的数据，我们需要超越基础的编码方法，开发更高级的处理策略。

# 查看分类变量的基本情况 import pandas as pd df = pd.read_csv("cat_train.csv") print(df.select_dtypes(include=['object']).nunique())

2. 组合特征：挖掘变量间的交互信息

单一的分类变量编码往往只能表达该变量本身的孤立信息，而变量之间的交互作用可能包含更有价值的预测信号。组合特征（Feature Interaction）就是通过将多个分类变量有机结合，创造新的特征维度。

2.1 基础组合方法

最简单的组合方式是直接拼接多个分类变量的取值：

# 创建两个分类变量的组合特征 df['combo_feature'] = df['ord_1'].astype(str) + '_' + df['ord_2'].astype(str)

这种方法虽然简单，但在实践中往往能带来显著的性能提升。在"cat-in-the-dat-ii"竞赛中，许多优秀解决方案都采用了类似的策略。

2.2 基于统计的组合特征

更高级的组合方法会引入统计信息，例如：

共现频率：计算两个类别共同出现的频率
条件概率：给定一个类别时另一个类别出现的概率
目标编码：用目标变量的统计量（如均值）来编码类别组合

# 计算两个分类变量组合的目标编码 combo_target_mean = df.groupby(['ord_1', 'ord_2'])['target'].mean().reset_index() combo_target_mean.columns = ['ord_1', 'ord_2', 'combo_target_mean'] df = pd.merge(df, combo_target_mean, on=['ord_1', 'ord_2'], how='left')

2.3 组合特征的最佳实践

构建有效组合特征需要考虑以下几点：

领域知识引导：基于业务理解选择可能有交互作用的变量组合
计算效率：高基数变量的组合会导致特征数量急剧增加，需权衡效果与成本
避免过拟合：对统计类组合特征要谨慎处理，防止信息泄露
模型选择：树模型能自动发现一些交互作用，而线性模型更需要显式的组合特征

提示：在交叉验证中，统计类组合特征应该在每一折内部计算，确保验证集的信息不会泄露到训练过程中。

3. 未知类别处理：构建鲁棒的特征系统

在实际应用中，测试数据往往包含训练集中未出现过的新类别。传统的编码方式（如LabelEncoder）遇到未知类别时会直接报错，导致模型无法正常工作。我们需要建立更鲁棒的处理机制。

3.1 常见未知类别处理策略

策略	描述	优点	缺点
预留"未知"类别	在训练时主动标记稀有类别为"未知"	实现简单，直接兼容新类别	可能损失稀有类别的信息
目标编码平滑	用全局统计量平滑稀有类别的编码	保留部分信息，更鲁棒	计算复杂，需防止数据泄露
哈希编码	使用哈希函数将类别映射到固定空间	天然支持新类别，内存效率高	可能发生哈希冲突
嵌入学习	用神经网络学习类别嵌入表示	能捕捉深层语义关系	需要足够数据，计算成本高

3.2 预留"未知"类别的实现

# 处理未知类别的示例代码 def handle_rare_categories(series, threshold=100, rare_label='RARE'): counts = series.value_counts() rare_categories = counts[counts < threshold].index return series.replace(rare_categories, rare_label) df['ord_2_processed'] = handle_rare_categories(df['ord_2'].fillna('MISSING'))

这种方法将出现次数少于阈值(如100次)的类别统一标记为"RARE"，在测试时遇到新类别也可以归入此类。

3.3 目标编码的鲁棒实现

目标编码是一种强大的技术，但对未知类别需要特殊处理：

from sklearn.model_selection import KFold def target_encode(train, test, col, target, smooth=20): # 计算全局均值 global_mean = train[target].mean() # 在训练集上计算各组的统计量 stats = train.groupby(col)[target].agg(['mean', 'count']) # 计算平滑后的目标编码 smooth = max(1, smooth) stats['encoded'] = (stats['mean'] * stats['count'] + global_mean * smooth) / (stats['count'] + smooth) # 应用编码 train_encoded = train[col].map(stats['encoded']) test_encoded = test[col].map(stats['encoded']).fillna(global_mean) return train_encoded, test_encoded # 在交叉验证中安全使用 kf = KFold(n_splits=5) for train_idx, val_idx in kf.split(df): train_fold, val_fold = df.iloc[train_idx], df.iloc[val_idx] train_fold['ord_2_encoded'], val_fold['ord_2_encoded'] = target_encode(train_fold, val_fold, 'ord_2', 'target')

这种方法通过贝叶斯平滑平衡了组内统计量和全局均值，对未知类别使用全局均值作为后备值，确保了编码的鲁棒性。

4. 实战案例：Kaggle竞赛中的最佳实践

在Kaggle的"cat-in-the-dat-ii"竞赛中，优胜方案通常综合运用了多种高级技巧。以下是一个典型的高分流程：

基础编码：
- 有序变量使用标签编码保留顺序信息
- 无序变量使用独热编码或目标编码
- 循环变量使用正弦/余弦变换
特征组合：
- 创建所有二元组合的特征交叉
- 对高基数变量进行基于哈希的简化后组合
- 添加统计类组合特征（如共现频率）
未知类别处理：
- 将训练集中出现次数<10的类别标记为"RARE"
- 对目标编码添加强平滑（smooth=100）
- 使用5折交叉验证计算编码统计量
模型训练：
- 使用LightGBM或CatBoost等能原生处理分类变量的算法
- 对线性模型使用稀疏矩阵表示
- 进行超参数优化，重点关注与分类变量相关的参数

# 综合处理流程示例 import lightgbm as lgb from sklearn.model_selection import train_test_split # 特征预处理 def preprocess(df, is_train=True): # 处理缺失值 df = df.fillna('MISSING') # 处理稀有类别 cat_cols = df.select_dtypes(include=['object']).columns for col in cat_cols: df[col] = handle_rare_categories(df[col]) # 目标编码 if is_train: X_train, X_val = train_test_split(df, test_size=0.2) for col in cat_cols: X_train[col+'_encoded'], X_val[col+'_encoded'] = target_encode(X_train, X_val, col, 'target') return X_train, X_val else: # 测试集处理类似但需要保存编码器 pass # 模型训练 X_train, X_val = preprocess(train_df) train_data = lgb.Dataset(X_train.drop('target', axis=1), label=X_train['target']) val_data = lgb.Dataset(X_val.drop('target', axis=1), label=X_val['target']) params = { 'objective': 'binary', 'metric': 'auc', 'learning_rate': 0.05, 'num_leaves': 63, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'cat_smooth': 10 } model = lgb.train(params, train_data, valid_sets=[val_data], num_boost_round=1000, early_stopping_rounds=50)

5. 高级技巧与注意事项

5.1 基于神经网络的嵌入学习

对于极高基数的分类变量（如用户ID、商品ID），可以借鉴自然语言处理中的嵌入技术：

将每个类别视为一个"词"
使用嵌入层学习低维度的密集表示
可以端到端训练，也可以预训练后作为静态特征

# 简化的嵌入学习示例 import tensorflow as tf from tensorflow.keras.layers import Input, Embedding, Flatten, Dense # 假设我们有1000个类别，想学习10维嵌入 cat_input = Input(shape=(1,)) embedding = Embedding(input_dim=1000, output_dim=10)(cat_input) flatten = Flatten()(embedding) output = Dense(1, activation='sigmoid')(flatten) model = tf.keras.Model(inputs=cat_input, outputs=output) model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['AUC'])