别再死记硬背了！用Python实战案例，5分钟搞懂推荐算法的ACC、F1-Score和AUC-平芜编程栈

用Python实战案例5分钟搞懂推荐算法的核心评估指标

刚接触推荐算法的开发者常被各种评估指标搞得晕头转向——ACC、F1-Score、AUC这些术语听起来抽象难懂，公式推导更让人望而生畏。但理解这些指标对优化推荐系统至关重要。本文将带您通过一个电影推荐案例，用Python代码直观演示这些指标的计算过程，让抽象概念变得触手可及。

1. 环境准备与数据加载

首先确保安装了必要的Python库：

pip install scikit-learn pandas matplotlib numpy

我们将使用经典的MovieLens数据集来构建一个简单的电影推荐模型。这个数据集包含用户对电影的评分，非常适合演示推荐算法的评估指标。

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, precision_recall_curve # 加载数据（这里使用简化版数据集） ratings = pd.read_csv('movie_ratings.csv') # 将评分转换为二分类问题：喜欢(1)或不喜欢(0) ratings['liked'] = ratings['rating'].apply(lambda x: 1 if x >= 4 else 0) # 特征工程：简单使用用户和电影ID作为特征 X = ratings[['user_id', 'movie_id']] y = ratings['liked'] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 训练一个简单的逻辑回归模型 model = LogisticRegression() model.fit(X_train, y_train)

2. 基础指标：准确率(ACC)与混淆矩阵

准确率是最直观的评估指标，表示模型预测正确的比例。我们先计算模型的准确率：

y_pred = model.predict(X_test) acc = accuracy_score(y_test, y_pred) print(f"模型准确率: {acc:.2f}")

但准确率有时会误导我们，特别是在数据不平衡时。更全面的评估需要查看混淆矩阵：

真实\预测	正类(1)	负类(0)
正类(1)	TP	FN
负类(0)	FP	TN

from sklearn.metrics import confusion_matrix import seaborn as sns import matplotlib.pyplot as plt cm = confusion_matrix(y_test, y_pred) sns.heatmap(cm, annot=True, fmt='d') plt.xlabel('预测值') plt.ylabel('真实值') plt.show()

从混淆矩阵可以计算出更多有意义的指标：

查准率(Precision): 预测为正类的样本中，实际为正类的比例
查全率(Recall): 实际为正类的样本中，被正确预测的比例

from sklearn.metrics import precision_score, recall_score precision = precision_score(y_test, y_pred) recall = recall_score(y_test, y_pred) print(f"查准率: {precision:.2f}") print(f"查全率: {recall:.2f}")

3. 综合指标：F1-Score与PR曲线

查准率和查全率往往此消彼长。F1-Score是两者的调和平均数，能更好地评估模型整体表现：

f1 = f1_score(y_test, y_pred) print(f"F1-Score: {f1:.2f}")

PR曲线展示了不同阈值下查准率和查全率的变化关系：

from sklearn.metrics import precision_recall_curve # 获取预测概率而非硬分类 y_scores = model.predict_proba(X_test)[:, 1] precisions, recalls, thresholds = precision_recall_curve(y_test, y_scores) plt.plot(recalls, precisions) plt.xlabel('查全率(Recall)') plt.ylabel('查准率(Precision)') plt.title('PR曲线') plt.show()

PR曲线越靠近右上角，模型性能越好。曲线下面积(AUC-PR)也是一个重要指标。

4. ROC曲线与AUC值

ROC曲线是评估分类器性能的另一个重要工具，展示了不同阈值下真正类率(TPR)和假正类率(FPR)的关系：

from sklearn.metrics import roc_curve fpr, tpr, thresholds = roc_curve(y_test, y_scores) plt.plot(fpr, tpr) plt.plot([0, 1], [0, 1], 'k--') # 随机猜测的基准线 plt.xlabel('假正类率(FPR)') plt.ylabel('真正类率(TPR)') plt.title('ROC曲线') plt.show() auc = roc_auc_score(y_test, y_scores) print(f"AUC值: {auc:.2f}")

AUC值衡量了ROC曲线下的面积，完美分类器的AUC为1，随机猜测的AUC为0.5。一般来说：

AUC > 0.9: 优秀
0.8 < AUC ≤ 0.9: 良好
0.7 < AUC ≤ 0.8: 一般
AUC ≤ 0.7: 较差

5. 指标选择与模型优化

不同的业务场景需要关注不同的指标：

电商推荐: 更关注查准率(Precision)，减少不相关推荐
内容推荐: 更关注查全率(Recall)，尽量不遗漏用户可能喜欢的内容
医疗诊断: 需要平衡查准率和查全率，F1-Score更重要

优化模型时可以针对性地调整阈值：

# 找到使F1-Score最大的阈值 f1_scores = [] for threshold in thresholds: y_pred_thresh = (y_scores >= threshold).astype(int) f1_scores.append(f1_score(y_test, y_pred_thresh)) best_threshold = thresholds[np.argmax(f1_scores)] print(f"最佳阈值: {best_threshold:.2f}")

实际项目中，还可以尝试以下优化方法：