用Python实战处理KuaiRec数据集：从下载到构建稀疏矩阵的完整流程-平芜编程栈

用Python实战处理KuaiRec数据集：从下载到构建稀疏矩阵的完整流程

在推荐系统领域，高质量的数据集是算法研究和实验的基石。KuaiRec作为快手与中科大联合发布的稠密度高达99.6%的推荐数据集，为研究者提供了难得的全曝光实验环境。本文将手把手带你完成从数据下载到最终构建稀疏矩阵的全流程，特别针对实际编码中的关键细节和常见陷阱进行深入解析。

1. 环境准备与数据获取

在开始处理数据前，我们需要配置合适的Python环境。推荐使用Anaconda创建独立环境以避免依赖冲突：

conda create -n kuairec python=3.8 conda activate kuairec pip install pandas scikit-learn scipy numpy

数据集可通过官方链接直接下载，建议使用wget命令确保下载完整性：

wget https://rec.ustc.edu.cn/share/598635c0-9585-11ec-8259-414ede1f8d4f -O KuaiRec.zip unzip KuaiRec.zip

解压后的目录结构通常包含：

big_matrix.csv：主交互矩阵
small_matrix.csv：全曝光测试矩阵
item_feat.csv：视频特征数据
social_network.csv：用户社交关系

注意：下载时可能会遇到网络波动问题，建议使用学术网络或稳定的网络环境。若下载中断，可尝试添加-c参数继续下载。

2. 数据加载与初步探索

使用Pandas加载数据时，建议指定列数据类型以优化内存使用。以下是加载大矩阵的推荐方式：

import pandas as pd dtypes = { 'user_id': 'int32', 'video_id': 'int32', 'watch_ratio': 'float32' } df_big = pd.read_csv('data/big_matrix.csv', dtype=dtypes)

初步数据探索应包括：

检查缺失值：df_big.isnull().sum()
统计描述：df_big.describe()
唯一值计数：df_big.nunique()

常见问题处理方案：

问题类型	解决方案	代码示例
异常值	截断处理	`df_big['watch_ratio'] = df_big['watch_ratio'].clip(0, 5)`
ID不连续	重新编码	`df_big['user_id'] = pd.factorize(df_big['user_id'])[0]`
特殊ID	过滤处理	`df_big = df_big[df_big['video_id'] != 1225]`

3. 数据集划分策略

不同于传统随机划分，推荐系统数据需考虑时间因素和用户行为连续性。我们实现两种典型划分方式：

时间划分法（适合有时序信息的数据）：

df_big['timestamp'] = pd.to_datetime(df_big['timestamp']) cutoff = df_big['timestamp'].quantile(0.8) train = df_big[df_big['timestamp'] < cutoff] test = df_big[df_big['timestamp'] >= cutoff]

用户级留出法（保证用户不跨集合）：

from sklearn.model_selection import GroupShuffleSplit splitter = GroupShuffleSplit(test_size=0.2, n_splits=1) for train_idx, test_idx in splitter.split(df_big, groups=df_big['user_id']): train = df_big.iloc[train_idx] test = df_big.iloc[test_idx]

划分后的数据应验证以下指标：

训练/测试集用户重叠率
行为分布一致性
热门物品覆盖率

4. 特征工程实战

KuaiRec的物品特征需要特殊处理才能有效利用。以下是特征处理的完整流程：

# 加载原始特征 item_feat = pd.read_csv('data/item_feat.csv') # 特征矩阵转换 def expand_features(row): tags = eval(row['feature_index']) # 原始数据存储为字符串形式的列表 return pd.Series(tags + [-1]*(4-len(tags))) # 用-1填充不足4个tag的情况 item_feat_expanded = item_feat.apply(expand_features, axis=1) item_feat_expanded.columns = [f'tag_{i}' for i in range(4)] item_feat_expanded.index = item_feat['video_id']

特征拼接时的注意事项：

处理缺失视频ID：item_feat_expanded = item_feat_expanded.reindex(range(max_video_id+1))
特征归一化：对数值型特征进行MinMax缩放
类别特征编码：对tag特征进行one-hot处理

关键点：特征处理会显著影响后续稀疏矩阵的构建效率，建议提前完成所有特征转换。

5. 稀疏矩阵构建技巧

使用SciPy构建稀疏矩阵时，有几种格式可选：

矩阵类型	适用场景	优点	缺点
CSR	算术运算、切片	行操作高效	列操作慢
CSC	列操作频繁	列切片快	行操作慢
COO	构建阶段	灵活构建	不支持运算

推荐的分步构建方法：

from scipy.sparse import csr_matrix from sklearn.preprocessing import LabelEncoder # 编码用户和视频ID user_encoder = LabelEncoder() video_encoder = LabelEncoder() user_ids = user_encoder.fit_transform(df_big['user_id']) video_ids = video_encoder.fit_transform(df_big['video_id']) # 构建三元组格式 ratings = df_big['watch_ratio'].values sparse_mat = csr_matrix( (ratings, (user_ids, video_ids)), shape=(len(user_encoder.classes_), len(video_encoder.classes_)) )

性能优化技巧：

批量处理：避免在循环中逐步构建矩阵
内存映射：对大矩阵使用scipy.sparse.save_npz保存
并行处理：对多个特征矩阵分别构建后合并

6. 全流程整合与验证

将上述步骤整合为可复用的数据处理管道：

class KuaiRecProcessor: def __init__(self, data_dir): self.data_dir = data_dir self.user_encoder = LabelEncoder() self.video_encoder = LabelEncoder() def load_and_process(self): # 实现所有处理步骤 ... def save_sparse_matrix(self, path): # 保存处理结果 ... def validate_integrity(self): # 验证数据一致性 ...

典型验证指标应包括：

矩阵密度计算
特征覆盖率统计
用户行为分布验证

实际项目中，我习惯在处理完成后立即保存中间结果。例如使用HDF5格式存储处理后的特征：

with pd.HDFStore('processed_data.h5') as store: store.put('train', train) store.put('test', test) store.put('item_features', item_feat_expanded)

这种处理方式在多次实验时可以节省大量重复处理时间，特别是在调试不同算法时，只需加载预处理好的数据即可立即开始训练。

用Python实战处理KuaiRec数据集：从下载到构建稀疏矩阵的完整流程