别再只用准确率了！用Python的sklearn搞定样本不均衡分类的F1值计算（附代码）-平芜编程栈

样本不均衡分类实战：用Python精准计算Micro/Macro/Weighted F1值

当你在客户流失预测模型中发现准确率高达95%时先别高兴——这可能只是样本不均衡制造的假象。上周我帮一家电商平台优化推荐系统时就遇到这种情况：正样本（购买用户）占比不足8%，模型只要无脑预测"不购买"就能获得漂亮的准确率数字。这时候，你需要一组更聪明的评估指标来揭穿这种"作弊行为"。

1. 为什么准确率在样本不均衡时失效？

想象一个欺诈检测场景：1000次交易中只有10次是欺诈。如果模型总是预测"正常"，准确率高达99%——这显然是个失败的模型。准确率的计算公式暴露了它的缺陷：

Accuracy = (TP + TN) / (TP + TN + FP + FN)

在样本极度不均衡时，TN（正确预测的负样本）会主导整个分数。这就是为什么在以下场景必须放弃准确率：

疾病诊断（患病样本稀少）
金融风控（正常交易占绝大多数）
罕见事件预测（如设备故障）

更聪明的三剑客指标：

Precision（查准率）：预测为正的样本中有多少真实为正
Recall（查全率）：真实为正的样本中有多少被预测出来
F1-score：Precision和Recall的调和平均数

from sklearn.metrics import precision_score, recall_score, f1_score # 假设y_true是真实标签，y_pred是预测标签 precision = precision_score(y_true, y_pred) recall = recall_score(y_true, y_pred) f1 = f1_score(y_true, y_pred)

2. 多分类场景下的F1计算策略

当问题扩展到多分类（如客户分群、产品分类），F1的计算会出现三种变体：

2.1 Micro-F1：平等看待每个样本

把所有类别的预测结果汇总后计算全局指标。适合各类别重要性相当的场景，如新闻分类。

micro_f1 = f1_score(y_true, y_pred, average='micro')

计算过程：

汇总所有类别的TP/FP/FN
用汇总值计算统一的Precision和Recall
求二者的调和平均数

2.2 Macro-F1：平等看待每个类别

先计算每个类别的F1，再取算术平均。适合需要关注小类别的场景，如罕见病诊断。

macro_f1 = f1_score(y_true, y_pred, average='macro')

特点：

小类别对最终结果影响与大类别相同
当某些类别F1很低时会明显拉低总分
sklearn默认采用各类别F1直接平均的方式

2.3 Weighted-F1：按样本量加权

在Macro基础上，根据各类别样本占比进行加权。适合样本不均衡但需要兼顾大小类别的折中方案。

weighted_f1 = f1_score(y_true, y_pred, average='weighted')

计算示例：

类别	样本占比	F1-score	加权贡献
A	60%	0.9	0.54
B	30%	0.6	0.18
C	10%	0.5	0.05
总计	100%	0.77

3. 实战：用sklearn全面评估模型

完整的评估应该包含分类报告和混淆矩阵：

from sklearn.metrics import classification_report, confusion_matrix # 生成包含所有指标的报表 print(classification_report(y_true, y_pred, target_names=['class1', 'class2', 'class3'], digits=4)) # 输出混淆矩阵 print(confusion_matrix(y_true, y_pred))

示例输出：

precision recall f1-score support class1 0.8921 0.8642 0.8779 324 class2 0.7568 0.7917 0.7738 120 class3 0.9630 0.9726 0.9678 584 accuracy 0.9088 1028 macro avg 0.8706 0.8762 0.8732 1028 weighted avg 0.9083 0.9088 0.9084 1028

关键解读点：

各类别的F1差异是否显著
Macro和Weighted F1的差距大小
哪些类别存在precision-recall不平衡

4. 业务场景下的选择策略

根据不同的业务目标选择适合的指标：

场景特征	推荐指标	典型案例
小类别错误成本高	Macro-F1	医疗诊断、欺诈检测
大类别的准确性更重要	Weighted-F1	产品推荐、客户分群
每个样本同等重要	Micro-F1	新闻分类、情感分析
需要全面分析各类表现	分类报告+混淆矩阵	所有多分类问题

特殊技巧：当Micro和Macro F1差距超过0.2时，说明存在严重的类别不平衡问题，需要考虑：

过采样/欠采样
类别权重调整
分层抽样验证

# 在模型中设置类别权重 from sklearn.linear_model import LogisticRegression model = LogisticRegression(class_weight='balanced')

5. 高级技巧与避坑指南

5.1 多标签分类的特殊处理

当样本可能属于多个类别时，需要使用特别的计算方式：

# 多标签场景下的指标计算 f1_score(y_true, y_pred, average='samples') # 按样本计算

5.2 阈值调整优化F1

通过调整分类阈值可以优化F1值：

from sklearn.metrics import precision_recall_curve # 获取预测概率 y_scores = model.predict_proba(X_test)[:, 1] # 计算不同阈值下的指标 precisions, recalls, thresholds = precision_recall_curve(y_true, y_scores) # 找到最佳F1阈值 f1_scores = 2 * (precisions * recalls) / (precisions + recalls) best_idx = np.argmax(f1_scores) optimal_threshold = thresholds[best_idx]