【风控】最大似然估计-平芜编程栈

一、最大似然估计概念

最大似然估计是一种参数估计方法，其核心思想是：

在已知观测数据的情况下，选择使得观测数据出现概率最大的参数值作为模型参数。

形式化描述：

假设我们有一组观测数据X=x1,x2,...,xnX = {x_1, x_2, ..., x_n}X=x1,x2,...,xn，它们服从某个概率分布f(x∣θ)f(x|\theta)f(x∣θ)（θ为模型参数）。
最大似然估计的目标是找到θ\thetaθ使得观测数据的联合概率（似然函数）最大：θ^∗MLE=arg⁡max⁡∗θL(θ)其中L(θ)=∏i=1nf(xi∣θ) \hat{\theta}*{MLE} = \arg\max*{\theta} L(\theta) \quad \text{其中} \quad L(\theta) = \prod_{i=1}^n f(x_i|\theta)θ^∗MLE=argmax∗θL(θ)其中L(θ)=i=1∏nf(xi∣θ)
在实际计算中，我们通常使用对数似然函数，因为乘积形式在计算机上容易下溢，并且对数函数单调递增，不改变最大值点：ℓ(θ)=ln⁡L(θ)=∑i=1nln⁡f(xi∣θ) \ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i|\theta)ℓ(θ)=lnL(θ)=i=1∑nlnf(xi∣θ)

核心直觉
- 想象你有一个模型（例如正态分布）和一些数据点
- MLE的做法是：找到一个参数，使得“生成这些观测数据的概率最大”
- 换句话说，“如果这个参数是对的，那么观测到的数据最合理”。
示例直观化
- 假设你在掷硬币，观测结果是H,T,H,H,TH, T, H, H, TH,T,H,H,T
- 硬币正面概率为ppp，MLE就是找ppp使观测到这些掷硬币结果的概率最大L(p)=p3(1−p)2 L(p) = p^3 (1-p)^2L(p)=p3(1−p)2

对L(p)L(p)L(p)求最大值（或对数似然ℓ(p)=3ln⁡p+2ln⁡(1−p)\ell(p) = 3\ln p + 2 \ln (1-p)ℓ(p)=3lnp+2ln(1−p)最大化）
得到 MLE 估计：p^=3/5=0.6\hat{p} = 3/5 = 0.6p^=3/5=0.6

逻辑回归预测二分类问题，标签yi∈0,1y_i \in {0,1}yi∈0,1。

模型假设：pi=P(Y=1∣Xi)=σ(zi)=11+e−zi,zi=β0+∑j=1nβjxij p_i = P(Y=1|X_i) = \sigma(z_i) = \frac{1}{1+e^{-z_i}}, \quad z_i = \beta_0 + \sum_{j=1}^n \beta_j x_{ij}pi=P(Y=1∣Xi)=σ(zi)=1+e−zi1,zi=β0+j=1∑nβjxij
对样本iii，观测yiy_iyi的概率为：P(Y=yi∣Xi)=piyi(1−pi)1−yi P(Y=y_i|X_i) = p_i^{y_i} (1-p_i)^{1-y_i}P(Y=yi∣Xi)=piyi(1−pi)1−yi
对全体样本的似然函数：L(β)=∏i=1mpiyi(1−pi)1−yi L(\beta) = \prod_{i=1}^m p_i^{y_i} (1-p_i)^{1-y_i}L(β)=i=1∏mpiyi(1−pi)1−yi
对数似然函数：ℓ(β)=∑i=1m[yiln⁡pi+(1−yi)ln⁡(1−pi)] \ell(\beta) = \sum_{i=1}^m \Big[ y_i \ln p_i + (1-y_i) \ln (1-p_i) \Big]ℓ(β)=i=1∑m[yilnpi+(1−yi)ln(1−pi)]

训练目标：找到β\betaβ使ℓ(β)\ell(\beta)ℓ(β)最大，即最可能产生观测标签的数据分布。
β^∗MLE=arg⁡max⁡∗βℓ(β) \hat{\beta}*{MLE} = \arg \max*\beta \ell(\beta)β^∗MLE=argmax∗βℓ(β)

逻辑回归无法直接解析求解β\betaβ（因为σ(z)\sigma(z)σ(z)非线性），所以采用迭代优化方法：

梯度上升法
- 迭代更新公式：β(t+1)=β(t)+η∂ℓ(β)∂β \beta^{(t+1)} = \beta^{(t)} + \eta \frac{\partial \ell(\beta)}{\partial \beta}β(t+1)=β(t)+η∂β∂ℓ(β)
- 对数似然梯度：∂ℓ(β)∂β=∑i=1m(yi−pi)xi \frac{\partial \ell(\beta)}{\partial \beta} = \sum_{i=1}^m (y_i - p_i) x_i∂β∂ℓ(β)=i=1∑m(yi−pi)xi
牛顿-Raphson法 / IRLS（迭代加权最小二乘）
- 在风控评分卡中常用
- 更新公式：β(t+1)=β(t)−H−1∇ℓ(β) \beta^{(t+1)} = \beta^{(t)} - H^{-1} \nabla \ell(\beta)β(t+1)=β(t)−H−1∇ℓ(β)
  其中HHH为对数似然的 Hessian 矩阵

渐近无偏性
- 样本量足够大时，MLE是无偏的，即E[θ^]≈θ\mathbb{E}[\hat{\theta}] \approx \thetaE[θ^]≈θ
渐近有效性
- MLE方差最小，达到了 Cramer-Rao 下界
渐近正态性
- 样本量大时，θ^\hat{\theta}θ^服从正态分布：θ^∼N(θ,I−1(θ)) \hat{\theta} \sim N(\theta, I^{-1}(\theta))θ^∼N(θ,I−1(θ))
- 其中I(θ)I(\theta)I(θ)为 Fisher 信息矩阵
局限性
- 小样本可能有偏
- 对异常值敏感
- 需要模型假设正确