news 2026/4/15 13:35:40

【风控】最大似然估计

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【风控】最大似然估计

一、最大似然估计概念

最大似然估计是一种参数估计方法,其核心思想是:

在已知观测数据的情况下,选择使得观测数据出现概率最大的参数值作为模型参数。

形式化描述:

  • 假设我们有一组观测数据X=x1,x2,...,xnX = {x_1, x_2, ..., x_n}X=x1,x2,...,xn,它们服从某个概率分布f(x∣θ)f(x|\theta)f(xθ)(θ为模型参数)。
  • 最大似然估计的目标是找到θ\thetaθ使得观测数据的联合概率(似然函数)最大:θ^∗MLE=arg⁡max⁡∗θL(θ)其中L(θ)=∏i=1nf(xi∣θ) \hat{\theta}*{MLE} = \arg\max*{\theta} L(\theta) \quad \text{其中} \quad L(\theta) = \prod_{i=1}^n f(x_i|\theta)θ^MLE=argmaxθL(θ)其中L(θ)=i=1nf(xiθ)
  • 在实际计算中,我们通常使用对数似然函数,因为乘积形式在计算机上容易下溢,并且对数函数单调递增,不改变最大值点:ℓ(θ)=ln⁡L(θ)=∑i=1nln⁡f(xi∣θ) \ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i|\theta)(θ)=lnL(θ)=i=1nlnf(xiθ)

二、最大似然估计的直觉理解

  1. 核心直觉

    • 想象你有一个模型(例如正态分布)和一些数据点
    • MLE的做法是:找到一个参数,使得“生成这些观测数据的概率最大”
    • 换句话说,“如果这个参数是对的,那么观测到的数据最合理”。
  2. 示例直观化

    • 假设你在掷硬币,观测结果是H,T,H,H,TH, T, H, H, TH,T,H,H,T
    • 硬币正面概率为ppp,MLE就是找ppp使观测到这些掷硬币结果的概率最大L(p)=p3(1−p)2 L(p) = p^3 (1-p)^2L(p)=p3(1p)2
  • L(p)L(p)L(p)求最大值(或对数似然ℓ(p)=3ln⁡p+2ln⁡(1−p)\ell(p) = 3\ln p + 2 \ln (1-p)(p)=3lnp+2ln(1p)最大化)
  • 得到 MLE 估计:p^=3/5=0.6\hat{p} = 3/5 = 0.6p^=3/5=0.6

三、MLE在逻辑回归中的应用

逻辑回归预测二分类问题,标签yi∈0,1y_i \in {0,1}yi0,1

  • 模型假设:pi=P(Y=1∣Xi)=σ(zi)=11+e−zi,zi=β0+∑j=1nβjxij p_i = P(Y=1|X_i) = \sigma(z_i) = \frac{1}{1+e^{-z_i}}, \quad z_i = \beta_0 + \sum_{j=1}^n \beta_j x_{ij}pi=P(Y=1∣Xi)=σ(zi)=1+ezi1,zi=β0+j=1nβjxij

  • 对样本iii,观测yiy_iyi的概率为:P(Y=yi∣Xi)=piyi(1−pi)1−yi P(Y=y_i|X_i) = p_i^{y_i} (1-p_i)^{1-y_i}P(Y=yiXi)=piyi(1pi)1yi

  • 对全体样本的似然函数:L(β)=∏i=1mpiyi(1−pi)1−yi L(\beta) = \prod_{i=1}^m p_i^{y_i} (1-p_i)^{1-y_i}L(β)=i=1mpiyi(1pi)1yi

  • 对数似然函数:ℓ(β)=∑i=1m[yiln⁡pi+(1−yi)ln⁡(1−pi)] \ell(\beta) = \sum_{i=1}^m \Big[ y_i \ln p_i + (1-y_i) \ln (1-p_i) \Big](β)=i=1m[yilnpi+(1yi)ln(1pi)]

训练目标:找到β\betaβ使ℓ(β)\ell(\beta)(β)最大,即最可能产生观测标签的数据分布。
β^∗MLE=arg⁡max⁡∗βℓ(β) \hat{\beta}*{MLE} = \arg \max*\beta \ell(\beta)β^MLE=argmaxβ(β)

3.1 对数似然函数求解

逻辑回归无法直接解析求解β\betaβ(因为σ(z)\sigma(z)σ(z)非线性),所以采用迭代优化方法

  1. 梯度上升法

    • 迭代更新公式:β(t+1)=β(t)+η∂ℓ(β)∂β \beta^{(t+1)} = \beta^{(t)} + \eta \frac{\partial \ell(\beta)}{\partial \beta}β(t+1)=β(t)+ηβ(β)
    • 对数似然梯度:∂ℓ(β)∂β=∑i=1m(yi−pi)xi \frac{\partial \ell(\beta)}{\partial \beta} = \sum_{i=1}^m (y_i - p_i) x_iβ(β)=i=1m(yipi)xi
  2. 牛顿-Raphson法 / IRLS(迭代加权最小二乘)

    • 在风控评分卡中常用
    • 更新公式:β(t+1)=β(t)−H−1∇ℓ(β) \beta^{(t+1)} = \beta^{(t)} - H^{-1} \nabla \ell(\beta)β(t+1)=β(t)H1(β)
      其中HHH为对数似然的 Hessian 矩阵

3.2 直观解释

  • (yi−pi)(y_i - p_i)(yipi)表示预测误差
  • 梯度告诉我们:如何调整参数,使模型预测概率pip_ipi更接近真实标签yiy_iyi
  • 迭代直到对数似然函数不再显著增加 → 参数收敛 → MLE求得

四、MLE的性质

  1. 渐近无偏性

    • 样本量足够大时,MLE是无偏的,即E[θ^]≈θ\mathbb{E}[\hat{\theta}] \approx \thetaE[θ^]θ
  2. 渐近有效性

    • MLE方差最小,达到了 Cramer-Rao 下界
  3. 渐近正态性

    • 样本量大时,θ^\hat{\theta}θ^服从正态分布:θ^∼N(θ,I−1(θ)) \hat{\theta} \sim N(\theta, I^{-1}(\theta))θ^N(θ,I1(θ))
    • 其中I(θ)I(\theta)I(θ)为 Fisher 信息矩阵
  4. 局限性

    • 小样本可能有偏
    • 对异常值敏感
    • 需要模型假设正确

五、MLE在风控建模中的实战意义

  1. 概率预测

    • 输出违约概率pip_ipi,可直接转化为评分卡分数
  2. 系数可解释性

    • 每个βj\beta_jβj表示特征xjx_jxj对 log-odds 的影响
    • 便于业务理解和监管审查
  3. 可扩展性

    • 可与正则化(L1/L2)结合,处理高维特征
  4. 算法稳定性

    • MLE与梯度优化结合,可在大规模数据上稳定训练
  5. 与 WOE 结合

    • WOE分箱使特征与 log-odds 近似线性 → 满足 MLE线性假设

六、MLE总结

  • 最大似然估计是逻辑回归训练的核心原理
  • 通过最大化观测数据的似然函数,得到最可能的参数
  • 优势:概率可解释、参数直观、可结合正则化
  • 在风控中,与 WOE 分箱、评分卡转换、线上审批决策紧密结合
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/8 9:57:01

HoRain云--JavaScript typeof操作符全解析

🎬 HoRain云小助手:个人主页 🔥 个人专栏: 《Linux 系列教程》《c语言教程》 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!…

作者头像 李华
网站建设 2026/4/8 22:23:30

阿里云函数计算全面教程:常用 API 串联与实战指南

大家好,我是jobleap.cn的小九。 在 Serverless 开发中,代码编写只是第一步。如何管理复杂的依赖、配置触发器以及实现一键部署,才是生产环境的核心。本教程将带你通过 Python 3.12 uv Serverless Devs (s.yaml) 走通全流程。 一、 核心组件…

作者头像 李华
网站建设 2026/4/15 13:34:49

Java线程数过多的隐藏危机:警惕这个致命异常!

文章目录Java线程数过多的隐藏危机:警惕这个致命异常!一、问题的来源:线程数过多引发JVM Crash1. JVM内存模型回顾2. 线程栈溢出:另一种死亡方式3. 线程数过多引发的连锁反应二、案例分析:一个真实的悲剧案例背景问题排…

作者头像 李华
网站建设 2026/4/15 0:16:48

手把手AI论文神器实操指南:9款工具20分钟生成8万字带文献引用

一、论文写作痛点与AI工具选型对比表 作为常年和论文“死磕”的研究生,你是否也遇到过这些问题: 开题时对着空白文档发呆,不知道从哪下笔?导师批注密密麻麻,却抓不住核心修改方向?手动插入参考文献格式&a…

作者头像 李华
网站建设 2026/4/15 0:18:46

强烈安利自考必备TOP8 AI论文写作软件

强烈安利自考必备TOP8 AI论文写作软件 2026年自考论文写作工具测评:为何值得关注? 随着自考人数逐年增长,论文写作成为许多考生面临的难题。无论是选题困难、资料查找繁琐,还是格式规范不熟悉,都可能影响最终成绩。为此…

作者头像 李华
网站建设 2026/4/13 9:15:45

个人云盘|基于springboot + vue个人云盘系统(源码+数据库+文档)

个人云盘 目录 基于springboot vue个人云盘系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue个人云盘系统 一、前言 博主介绍:✌️大…

作者头像 李华