news 2026/5/14 16:36:15

从MAE到C-Eval(2)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从MAE到C-Eval(2)

从MAE到C-Eval(1)

这个系列好久没更了,当时停更是因为没有阅读量,但是我现在其实也不为了阅读量了,愿意写啥,写啥,所以就把这个系列又捡起来了(我之前留的所有坑,每个系列也都会填上的)

之前的文章介绍了MAE和MSE,这俩玩意都是做回归的

再复习一下

这次换一个公式写法为了好理解,我们用单样本损失

yi 就是y_true,y_i^就是预测值,对单个样本ii,有一个损失ℓ_iℓii

如果是回归 + MAE

数学特点:

线性误差:误差每增大一点,惩罚线性增加,不会像平方那样放大极端值。

导数是符号函数:

在 0 点有“尖角”,对梯度下降不如 MSE 那么平滑。

适用场景:

回归任务,但:

函数曲线这样

如果是回归 + MSE:

数学特点:

二次方:误差越大,惩罚增长得非常快。

适用场景:

回归任务的默认首选

(连续值预测:房价、温度、评分等)。

你希望模型对“大误差”反应更剧烈(因为平方会放大远离点)

缺点:

对 outlier(极端样本)特别敏感,容易被坏点拖着跑。

函数曲线

那么MAE比起MSE呢

对比 MSE:

MSE:惩罚大误差更狠,适合你希望模型尽量别出“大错”的回归;

MAE:对每个误差一视同仁,适合你想稳一点,不想被极端点绑架, 那你可以用MAE

然后上节还讲了熵

香浓信息熵:

直白讲:

随机变量 X 服从分布 p

它的熵H(p) = 用分布p自己的概率,去算“平均每次观察一个样本,带来的信息量”。

再看不懂就拆开讲

设有一个随机事件x,它发生的概率是p(x)。

定义一个量:

I(x)=−log⁡p(x)

你现在只要记两点直觉:

如果p(x)很大(比如 0.99),那−logp(x)很小

这个结果一点不意外,“信息量”小。

如果p(x)很小(比如 0.001),那−logp(x)很大

这个结果很罕见,“信息量”大。

所以:

−log⁡p(x)被叫做“这个具体结果的惊喜度 / 信息量”。

你可以先当成定义:事件越罕见,看到它时获得的信息越多,用

−logp(x)度量。

接下来我们要讲一个概念:熵 = “信息量的平均值”

现在不只是一个结果,而是一个随机变量X:

它可能取很多种值:x1,x2,…

每个值出现的概率是p(x)

那么:

每次我们看到一个具体结果x,它的信息量是−log⁡p(x)

但每次看到的结果不一样,信息量也会不一样。

熵H(p)做的事情就是:

用分布 p自己的概率,去算:

平均每看到一次结果,带来的信息量是多少?

数学上就是把“信息量”−log⁡p(x)按概率p(x)求加权平均(期望)

这个式子就是这么来的

讲完了信息熵的定义了

我们为什么要讲它,不是在讲损失函数吗?

对喽,讲完了MSE,MAE回归任务经常用的损失函数,就该讲分类常用的损失函数交叉熵了,也就是cross-entropy

你看它也有entropy可见叫XX熵也算实至名归,那为什么要冠以cross呢?

我们去熵公司的前面部分,就是带期望那个

熵:

交叉熵:

区别只在一件事:

熵:真分布p既负责说“样本出现的频率”(期望),又负责“我们认为它的概率”(log 里);

交叉熵:

所以交叉熵是个假的啊(肯定假啊,毕竟你预测的不是真值,然后去收敛模型么,对吧)

交叉熵 =“真实世界按 p出现样本,但我们用 q来编码这些样本时,平均每个样本需要多少信息量(多少 bit)”。

如果模型q跟真实p很接近,交叉熵就接近熵本身(能接近理论最优的编码长度)。

如果q很烂,把高概率事件当低概率给,交叉熵就会大很多。

分类/语言模型训练时,我们的情况刚好就是:

真实标签分布 =p(one‑hot 或经验频率,可以当“真分布”),比如LLM其实就是one-hot,不是在embedding的时候而是在词表V推理(sotamax概率)的时候其实就是一个one-hot,几万十几万的词表,只有那个词被推理出来,它是1,别人是0

模型输出的概率分布 =qθ(softmax、sigmoid 的输出)。

用的损失函数就是:

还是用llm来解释,这个时候x就是你的context,y就是你要推出来的next-token,这就好理解了吧

优化目标也是让qθ 逼近p:

哎!这就把KL散度也给引入了

,然后,下次再讲吧

讲熵,交叉熵,KL散度的关系

写在最后:我为啥又把这些东西翻出来了,是因为我发现RL的东西对大多数人太抽象了(好多读者都希望我更新,但是属实有很多人留言看不懂,其实没很多人,因为纯讲算法的,几乎没什么人读

)但是抽象的核心原因,好像并不是RL本身,反而是这些最普通的基础概念,所以我决定先给读者补补基础,否则后面ppo为什么要用grpo取代

grpo的为什么有的论文把KL散度直接删了,不弄清楚这些底层概念,读者是看不懂的,不过这个东西长一长也许能长成一本深度学习数学红宝书也不一定

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 20:55:39

静态路由综合实验报告

一、实验题目实验要求:除R5的环回地址固定以外,整个其他所有网段基于192.168.1.0/24进行合理的IP地址划分。 R1-R4每个路由器存在两个环回接口,用于模拟连接PC网段;地址也在192.168.1.0/24这个网络范围内。 R1-R4上不能直接编写到达5.5.5.0/2…

作者头像 李华
网站建设 2026/5/13 15:52:50

如何5步自动化配置完美黑苹果:OpenCore智能助手终极指南

如何5步自动化配置完美黑苹果:OpenCore智能助手终极指南 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify OpCore-Simplify是一款专为简化黑…

作者头像 李华
网站建设 2026/5/13 16:40:26

新手必藏!免费海报素材 + 制作教程,3 分钟搞定一张海报

多款在线设计平台如创客贴、DesignCap、Canva、Fotor、Snappa和Pixlr,均围绕海报制作素材提供了丰富且多样化的资源库,极大地降低了设计门槛,提升了制作效率。它们不仅提供海量高质量的模板、背景图片、图标、字体等基础素材,还支…

作者头像 李华
网站建设 2026/5/13 7:18:08

wl_arm上实现硬实时任务的方法论:系统学习截止日期调度策略

在 wl_arm 上构建硬实时系统的实践:从截止日期调度到智能调参你有没有遇到过这样的情况?在一台性能不错的 wl_arm 设备上跑着工业控制程序,突然某个传感器任务“卡”了一下——延迟超了 2 毫秒。看起来不多,但在飞控或机器人关节闭…

作者头像 李华
网站建设 2026/5/12 4:36:38

一键拉取PyTorch镜像,立即开启大规模Token生成服务

一键拉取PyTorch镜像,立即开启大规模Token生成服务 在大模型落地日益加速的今天,一个常见的场景是:研究者或工程师拿到一台配备NVIDIA GPU的服务器后,第一件事不是写代码、调模型,而是陷入“环境地狱”——驱动不兼容…

作者头像 李华
网站建设 2026/5/13 9:05:51

TS3AudioBot音乐机器人终极配置教程

TS3AudioBot音乐机器人终极配置教程 【免费下载链接】TS3AudioBot Advanced Musicbot for Teamspeak 3 项目地址: https://gitcode.com/gh_mirrors/ts/TS3AudioBot TS3AudioBot作为一款专业的TeamSpeak3音乐播放解决方案,为语音聊天室和游戏社区提供了完整的…

作者头像 李华