从Kaggle竞赛到业务落地：我是如何用随机森林搞定用户流失预测的（Python全流程）-平芜编程栈

从Kaggle竞赛到业务落地：我是如何用随机森林搞定用户流失预测的（Python全流程）

三年前接手某电商平台的用户流失预警项目时，我面对的是300万条杂乱无章的订单数据和42个来源各异的特征字段。市场部给的KPI很明确：提前两周预测高价值用户的流失概率，准确率不低于85%。在尝试了逻辑回归、XGBoost等多种模型后，最终用随机森林交出了92.3%的测试集准确率。今天我就拆解这个真实案例，分享从数据清洗到模型部署的全套实战经验。

1. 业务问题定义与数据准备

用户流失预测本质上是个二分类问题，但业务场景的特殊性决定了我们不能简单套用Kaggle竞赛的套路。首先需要明确几个关键点：

流失定义：连续30天未登录且未产生消费（需结合业务周期调整）
预测窗口：提前14天预警（太早无意义，太晚来不及干预）
样本平衡：历史流失用户占比17%，采用SMOTE过采样

原始数据包含的42个特征可以归为三类：

特征类型	示例字段	预处理重点
用户属性	注册渠道、会员等级	类别编码、缺失值填充
行为时序	最近登录间隔、浏览深度	滑动窗口统计、异常值修正
交易记录	客单价、优惠券使用率	金额标准化、比例特征衍生

# 流失标签生成示例 import pandas as pd from datetime import timedelta def create_churn_label(df, end_date, inactive_days=30): cutoff_date = end_date - timedelta(days=inactive_days) active_users = df[df['last_active'] > cutoff_date]['user_id'] return df['user_id'].isin(active_users).astype(int)

注意：实际业务中建议预留1-3个月的观察期，避免将促销等短期效应误判为流失

2. 特征工程的实战技巧

好的特征工程能让普通模型产生优秀效果。我们团队用两周时间迭代出最终使用的28个特征，这里分享三个最具业务价值的特征构造方法：

2.1 行为衰减系数

通过指数加权移动平均（EWMA）计算用户活跃度的衰减趋势：

def calculate_ewma(df, span=7): return df.sort_values('date').groupby('user_id')['activity_score'].ewm(span=span).mean()

2.2 交叉特征构建

利用特征间的交互作用捕捉非线性关系：

# 构造价格敏感度特征 df['price_sensitivity'] = df['coupon_usage'] / (df['avg_order_value'] + 1e-6)

2.3 时间序列特征提取

使用tsfresh库自动生成时序特征：

from tsfresh import extract_features extracted_features = extract_features( user_activity_logs, column_id="user_id", column_sort="date" )

3. 随机森林的调参艺术

相比XGBoost等新锐算法，随机森林在特征量<50的中等规模数据集上仍有独特优势：

自动处理混合类型特征（无需独热编码）
对缺失值不敏感（适合业务数据常见的字段缺失）
特征重要性可解释性强（便于向业务部门汇报）

我们的调参过程分为三个阶段：

基线模型（默认参数）
- OOB Score: 0.841
- 特征重要性前五：
  - 最近登录间隔（0.32）
  - 优惠券响应率（0.18）
  - 浏览深度衰减系数（0.15）

网格搜索核心参数

param_grid = { 'n_estimators': [100, 200, 300], 'max_depth': [10, 20, None], 'min_samples_leaf': [1, 3, 5] }

业务定制化调整
- 增加流失样本权重：class_weight={0:1, 1:3}
- 限制单棵树深度：max_depth=15（避免过拟合历史模式）

最终参数配置：

best_rf = RandomForestClassifier( n_estimators=200, max_depth=15, min_samples_leaf=3, class_weight={0:1, 1:3}, oob_score=True, random_state=42 )

4. 模型输出转化为业务行动

模型上线不是终点，如何让预测结果驱动业务增长才是关键。我们做了三件事：

4.1 用户分群策略

风险等级	预测概率区间	干预措施
高危	>0.85	专属客服回访+50元定向券
中危	0.6-0.85	短信关怀+爆品推荐
低危	<0.6	常规运营（不额外投入资源）

4.2 特征重要性报告

向管理层汇报时，用SHAP值展示可解释性：

import shap explainer = shap.TreeExplainer(best_rf) shap_values = explainer.shap_values(X_test) shap.summary_plot(shap_values[1], X_test)

4.3 效果监测看板

建立模型性能的持续监测机制：

每日刷新预测准确率、召回率
每周分析干预转化率（预警用户中有多少被挽回）
每月校准特征权重（应对业务策略变化）

5. 踩坑经验与优化方向

项目上线三个月后，我们发现两个关键问题：

季节性波动影响：节假日期间模型效果下降明显
- 解决方案：加入月份和节日哑变量
干预疲劳效应：重复发放优惠券的边际效益递减
- 改进措施：建立用户响应历史记录，动态调整干预策略

# 动态权重调整示例 def dynamic_weight(user_id): intervention_history = get_intervention_history(user_id) last_response = intervention_history['response_rate'].iloc[-3:].mean() return 1 + (1 - last_response) * 2 # 响应率越低权重越高

这个项目给我的最大启示是：在业务场景中，模型精度提升1%带来的价值，可能远小于特征可解释性提升10%。用随机森林的特征重要性分析，我们发现了"优惠券使用率"比"优惠券金额"更重要的事实，直接改变了市场部的补贴策略。