news 2026/2/8 6:23:18

风控模型中的KS值

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
风控模型中的KS值

文章目录

  • 1 KS值概述
  • 2 KS值的计算原理
    • 2.1 基本概念
    • 2.2 计算步骤
  • 3 KS曲线(KS Plot)
    • 理想情况下的KS曲线:
  • 4 KS值的解读标准
  • 5 计算示例
  • 6 KS值的优缺点
    • 优点:
    • 缺点:
  • 7 KS值 vs AUC
  • 8 总结

1 KS值概述

KS(Kolmogorov-Smirnov)值是一种衡量分类模型(尤其是二分类模型)区分能力的指标。它通过比较正负样本的累积分布来评估模型将"好客户"和"坏客户"分开的能力。

核心思想:一个完美的模型应该能够将所有的"坏客户"(正样本)和"好客户"(负样本)完全分开。

2 KS值的计算原理

2.1 基本概念

在计算KS值时需要得到:

  • 模型预测概率:模型对每个样本预测为正类(如"坏客户")的概率
  • 真实标签:样本的真实类别(好/坏)

2.2 计算步骤

  1. 按预测概率排序:将样本按照模型预测的概率从高到低排序
  2. 等分分组:将排序后的样本分成若干组(通常10-20组)
  3. 计算累积分布
    • 累积好客户占比:从概率最高组开始,累计好客户数量占总好客户的比例
    • 累积坏客户占比:从概率最高组开始,累计坏客户数量占总坏客户的比例
  4. 计算KS值:找到累积坏客户占比与累积好客户占比的最大差值

数学公式
K S = max ⁡ i = 1 n ∣ F bad ( i ) − F good ( i ) ∣ KS = \max_{i=1}^{n} |F_{\text{bad}}(i) - F_{\text{good}}(i)|KS=i=1maxnFbad(i)Fgood(i)

其中:

  • F bad ( i ) F_{\text{bad}}(i)Fbad(i):前i组中坏客户的累积占比
  • F good ( i ) F_{\text{good}}(i)Fgood(i):前i组中好客户的累积占比
  • n nn:分组数量

3 KS曲线(KS Plot)

KS值通常通过KS曲线来可视化:

  • 横轴:分组序号(从预测概率最高到最低)
  • 纵轴:累积百分比
  • 两条曲线
    • 坏客户累积分布曲线:上升较快,因为坏客户集中在高分区域
    • 好客户累积分布曲线:上升较慢,因为好客户相对均匀分布
  • KS值:两条曲线之间的最大垂直距离

理想情况下的KS曲线:

  • 坏客户曲线迅速上升到1,然后保持平稳
  • 好客户曲线缓慢上升
  • 两条曲线分离度很大

4 KS值的解读标准

根据经验,KS值的评价标准如下:

KS值范围模型区分能力评价
< 0.2模型基本没有区分能力
0.2 - 0.3一般有一定的区分能力,但较弱
0.3 - 0.5较好模型有较好的区分能力
0.5 - 0.75模型有很强的区分能力
> 0.75极强(可能可疑)需要检查是否存在数据泄露

注意

  • 在金融风控领域,KS值通常要求大于0.3
  • KS值不是越高越好,过高的KS值可能意味着过拟合或数据泄露
  • KS值对样本分布比较敏感

5 计算示例

假设我们有10个样本,按预测概率排序后的结果:

样本预测概率真实标签累积坏客户占比累积好客户占比差值
10.950.200.2
20.900.400.4
30.850.40.1250.275
40.800.60.1250.475
50.750.60.250.35
60.700.80.250.55
70.650.80.3750.425
80.600.80.50.3
90.551.00.50.5
100.501.01.00

计算过程

  • 总坏客户数:5个
  • 总好客户数:5个
  • 在第6个样本处,差值最大:0.55

因此,KS值 = 0.55

6 KS值的优缺点

优点:

  1. 直观易懂:通过单一数值反映模型区分能力
  2. 业务解释性强:在金融风控中广泛使用
  3. 不受类别不平衡影响:关注的是分布差异,而不是绝对数量
  4. 阈值无关:不像准确率那样依赖于特定分类阈值

缺点:

  1. 对样本分布敏感:样本分布变化会影响KS值
  2. 只关注最大差异:可能忽略了整体的分布信息
  3. 在深度学习中较少使用:更多使用AUC等指标
  4. 受分组数量影响:不同的分组方式可能得到不同的KS值

7 KS值 vs AUC

特征KS值AUC
关注点累积分布的最大差异ROC曲线下的面积
范围[0, 1][0.5, 1]
业务解释模型最大区分程度整体排序能力
敏感性对分布敏感相对稳定
应用场景金融风控、信用评分通用分类问题

关系:一般来说,KS值和AUC有正相关关系,但不是严格的线性关系。

8 总结

KS值是风险评分模型中至关重要的评估指标:

  • 核心:衡量模型区分正负样本的能力
  • 计算:通过比较累积分布的最大差异
  • 标准:通常要求KS > 0.3
  • 可视化:通过KS曲线直观展示
  • 应用:特别适用于金融风控、信用评分等场景

掌握KS值不仅有助于模型评估,还能帮助理解模型的业务表现,是在风险建模领域必须掌握的核心指标之一。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/8 9:11:03

零基础入门学网络安全(详细),看这篇就够了!!

目录一、什么是网络安全1.1 网络安全的定义&#xff1a;1.2 信息系统&#xff08;Information System&#xff09;1.3 信息系统安全三要素&#xff08;CIA&#xff09;1.4 网络空间安全1.5 国家网络空间安全战略1.6 网络空间关注点1.7 网络空间安全管理流程二、网络安全术语三、…

作者头像 李华
网站建设 2026/2/7 19:24:46

【计算机毕业设计案例】基于python-CNN卷积神经网络的鱼类识别

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/2/6 21:45:37

XGBoost完整安装配置指南:从入门到精通

XGBoost完整安装配置指南&#xff1a;从入门到精通 【免费下载链接】xgboost dmlc/xgboost: 是一个高效的的机器学习算法库&#xff0c;基于 C 开发&#xff0c;提供用于提升分类、回归、排序等任务的性能。 项目地址: https://gitcode.com/gh_mirrors/xg/xgboost XGBoo…

作者头像 李华