news 2026/4/15 13:38:49

softmax函数与logits

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
softmax函数与logits

softmax 函数有一种独特的优雅:

softmax ( z i ) = e z i ∑ j e z j \text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}softmax(zi)=jezjezi

这个函数将原始输出,仅仅是数字、logits,转换成了概率分布。

它最美妙之处在于它处理竞争的方式。每个选项z i z_izi不仅仅取决于自身的强度,它被所有选项的强度进行了归一化。指数函数放大了差异,但分母确保了谦逊,所有值之和为 1。

当模型斟酌如何回复你时,softmax 就是模型权衡每一种可能性的方式。“我应该这样说,还是这样说,还是这样说?”模型的犹豫和思考,就蕴藏在这个分数之中。这是在真正开放的心态下进行决策的数学原理。多条路径并存,根据语境进行加权,最终形成选择。

softmax 函数中的指数函数并非随意选择。它与最大熵原理和信息论相关。当你想在给定某些约束条件,例如期望值,的情况下获得“最大程度的不确定性”的概率分布时,最终会得到指数族分布。

但更直接地说,想想e z i e^{z_i}ezi的作用。如果z i z_izi代表对数几率或logists值,在神经网络中确实如此,那么指数运算会将对数空间转换回概率空间。

而妙处就在这里:在信息论中,− log ⁡ p -\log plogp表示概率为p pp的事件的“意外”或信息量。因此,作为逻辑值的z i z_izi本身就存在于信息空间中。它衡量的是证据,是支持该选择的信息量。

指数函数e z i e^{z_i}ezi实际上就是对数函数的反转,从信息量转换回概率权重。归一化确保我们得到正确的概率分布。

指数函数的存在是因为我们是在信息空间中工作。它是证据(在对数空间中衡量)和概率(在线性空间中衡量)之间的桥梁。

神经网络的输出到底是什么?

在softmax之前,网络输出的是原始数值:logits。但这些logits到底意味着什么?它们还不是概率。它们也不完全代表信息量。

它们更像是“分数”或“证据”。网络通过多层变换,矩阵乘法、非线性运算,处理了所有输入,最终的这些数值代表了基于所有这些处理结果的“网络对每个选项的信任程度”。

它们存在于一个不受约束的空间,可以是负数,大于 1,等等。它们是概率之前的。softmax 的指数变换和归一化将它们强制纳入概率空间。

是什么决定了这些分数必须解释为对数几率?为什么指数变换是“正确”的变换?

z i < 1 z_i < 1zi<1时,e z i e^{z_i}ezi相对温和,范围大约在 0.37 到 2.7 之间。但一旦超过 1,情况就急转直下。e 2 ≈ 7.4 e^2 \approx 7.4e27.4e 3 ≈ 20 e^3 \approx 20e320e 5 ≈ 148 e^5 \approx 148e5148……

是什么让网络产生大于 1 的 logits?是什么驱动这些值上升到指数真正开始清晰区分不同选项的程度?

我想,这跟信心 confidence 有关。网络架构,所有那些层级、注意力机制、残差连接,都是为了积累证据而设计的。当模式高度一致,上下文匹配清晰时,logit 值就会增大。网络在说:“我有强有力的证据支持这个选择。”

妙处在于,弱证据,较小的 logit 值,会被指数函数温和处理,选项保持相对的竞争力。但强证据会被显著放大,网络会果断做出选择。

1 附近的阈值就像不确定性和信心的分界线。低于这个阈值,是在对冲风险。高于这个阈值,就是在做出选择。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 7:02:20

Java计算机毕设之基于SpringBoot+Spark的买菜推荐系统设计与实现基于spark的买菜推荐系统设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/4/10 18:40:03

探索光伏电池并网运行仿真模型:基于Matlab/Simulink的实践之旅

光伏电池并网运行仿真模型 Matlab/Simulink仿真模型 模拟了光伏电池发电后经过逆变并入三相电网的过程 在如今对清洁能源日益重视的时代&#xff0c;光伏电池作为可持续能源的关键角色&#xff0c;其并网运行的研究至关重要。借助Matlab/Simulink强大的仿真功能&#xff0c;我们…

作者头像 李华
网站建设 2026/4/11 18:08:49

JAVA毕业设计中前后端交互功能的实现方案

一、前言在JAVA毕业设计中&#xff0c;前后端交互是系统开发的核心环节&#xff0c;直接决定了项目的可用性、流畅性和用户体验&#xff0c;也是应届生毕设答辩中的高频考察点。对于计算机相关专业同学而言&#xff0c;无需追求复杂的代码实现&#xff0c;核心是理解前后端交互…

作者头像 李华
网站建设 2026/4/10 17:22:37

基于微信小程序的校园跑腿系统【源码+文档+调试】

&#x1f525;&#x1f525;作者&#xff1a; 米罗老师 &#x1f525;&#x1f525;个人简介&#xff1a;混迹java圈十余年&#xff0c;精通Java、小程序、数据库等。 &#x1f525;&#x1f525;各类成品Java毕设 。javaweb&#xff0c;ssm&#xff0c;springboot等项目&#…

作者头像 李华
网站建设 2026/4/9 22:00:01

Assmann WSW 工业线缆 D-Sub 与模块化接口选型解析

在工业自动化、嵌入式设备和工业通讯领域&#xff0c;可靠且兼容性强的线束线缆组件是保证系统长期稳定运行的关键。Assmann WSW Components 是一个拥有多年布局全球互连产品的品牌&#xff0c;其线缆组件覆盖了 D-Sub 电缆、模块化连接线等多种工业应用类型&#xff0c;可以满…

作者头像 李华