news 2026/4/27 1:02:22

小白学习神经网络多分类问题在对应位置卡了好久!!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小白学习神经网络多分类问题在对应位置卡了好久!!

记录一下终于迈过去这个坎。

是一个手写数字识别问题,我卡在为什么相应位置就是这个数字,对卡了很久。

神经网络输出十个数字,经过softmax,输出十个概率,而我的问题是:怎么知道最大的那个概率对应的就是哪个数字?

ai一直解释的是标签和图片怎么绑定在一起的,并且默认,0位置上概率最大,那这个数字就是0。而我的问题恰恰就是为什么0位置就代表数字0,这是什么规定吗?

在我苦苦的鸡同鸭讲中,终于ai开智了,明白了我的问题,也可以是我的语言能力又上一层楼。

于是我得到了答案!

为了验证我是否真的理解了,我问了ai如果是十种动物的多分类问题,标签是不是得先定义一下。

通过枚举和字典的方式人为给类别名加上了数字标签

由于我最开始的手写数字识别是读图来获取标签的,我在这里也卡了一下,认为标签列表里会有重复的数字,当时我没理解到最后输出的时候就是那标签当索引在用。所以我再和ai验证,如果动物分类也是读图+Split图片名来获取类别的话,代码是怎么做的。

用集合去重了,并且排序保证一致性

果然是这样的,最后其实就是拿标签当最后的索引用的,而torch框架里本身就规定了!

通过loss函数可以看出用的是第i个样本的标签label做的output的索引!

其实我一直有问ai这输出位置是不是固定好的,意思就是底层就是这样写好的,但是ai一直给我解释其他东西。

所以搞不懂原理的时候就去看源代码啊!!看看框架是怎么写的呜呜

而我混淆的就是因为手写数字识别,标签就是数字本身!刚好可以直接拿数字(标签)做索引。

复盘一下:

1.搞不懂的时候去看看框架代码是怎么写的

2.用相似问题去提问对比学习,发现差异。比如用动物分类的问题去问,因为可能是原本处理的问题具有令新手混乱的地方

3.卡住的时候换一种提问方式

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 1:02:20

NVIDIA NeMo Retriever技术解析与应用实践

1. 企业数据智能化的挑战与机遇在数字化转型浪潮中,企业积累的数据量正呈指数级增长。根据IDC最新预测,2024年全球企业将产生11ZB(1ZB10亿TB)的独特数据,到2027年这一数字将激增至20ZB。更关键的是,这些数据…

作者头像 李华
网站建设 2026/4/27 1:00:28

从零构建轻量级进程沙盒:基于Linux Namespace与Cgroups的隔离实践

1. 项目概述:从“沙盒”到“微沙盒”的演进 在软件开发和运维领域,“沙盒”这个概念大家都不陌生。它就像一个安全的游乐场,让程序在里面尽情玩耍,而不会对真实环境造成任何破坏。无论是测试一段新代码、分析一个可疑文件&#xf…

作者头像 李华
网站建设 2026/4/27 0:57:41

如何快速掌握OpenCore配置:OCAT跨平台管理工具的完整教程

如何快速掌握OpenCore配置:OCAT跨平台管理工具的完整教程 【免费下载链接】OCAuxiliaryTools Cross-platform GUI management tools for OpenCore(OCAT) 项目地址: https://gitcode.com/gh_mirrors/oc/OCAuxiliaryTools 你是否曾被Ope…

作者头像 李华
网站建设 2026/4/27 0:56:40

扩散语言模型内存优化与高效服务部署实践

1. 扩散语言模型服务的内存挑战与优化方向扩散语言模型(Diffusion-based Large Language Models, dLLM)作为生成式AI的新兴范式,其迭代式去噪机制与传统自回归模型存在本质差异。在RTX 4090等消费级GPU上,8B参数的LLaDA模型处理25…

作者头像 李华
网站建设 2026/4/27 0:54:05

ESP32-S3物联网开发模块M5Stamp S3深度评测

1. M5Stamp S3模块深度解析M5Stamp S3是M5Stack推出的一款基于ESP32-S3芯片的超小型物联网开发模块。作为一名长期使用ESP32系列开发产品的工程师,我最近在实际项目中测试了这款模块,发现它在保持紧凑尺寸的同时提供了惊人的扩展能力。与常见的ESP32开发…

作者头像 李华
网站建设 2026/4/27 0:48:48

分布式训练与Wafer-Scale芯片优化策略解析

1. 分布式训练与并行策略概述在当今大规模语言模型(LLM)训练领域,分布式训练已成为突破单机计算限制的核心技术。传统单机训练在面对参数量达数百亿甚至数千亿的模型时,无论是计算能力还是内存容量都显得捉襟见肘。分布式训练通过将计算任务分解到多个计…

作者头像 李华