news 2026/5/6 8:30:10

ScalingLaws-2022-Chinchilla-2:既然Dₒₚₜ/Nₒₚₜ≈20,为什么LLaMA系列用的D/N远大于20【Chinchilla比例:每个参数大约对应20个token】

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ScalingLaws-2022-Chinchilla-2:既然Dₒₚₜ/Nₒₚₜ≈20,为什么LLaMA系列用的D/N远大于20【Chinchilla比例:每个参数大约对应20个token】

每个参数大约对应 20 个 token(常被叫作Chinchilla 比例)并不是一条“宇宙定律”。

你看到LLaMA 系列的 token/参数 比值远大于 20,核心原因是:他们优化的目标、约束条件、以及用来拟合的“最优前沿(frontier)”都变了

尤其从 Llama 3 开始,论文里甚至明确承认:小模型会被“刻意训练得比 compute-optimal 更久”,因为这样在同等推理成本(inference budget)下更强

一、先把“20”从哪来讲清楚:它来自 Chinchilla 论文的 compute-optimal 前沿

Chinchilla(Hoffmann et al., 2022 / 2203.15556)要解的问题是:

在固定训练计算量(FLOPs 预算)下,参数量和训练 token 数怎么分配,才能让 loss 最小?

论文里把训练计算量近似写成(文中用 FLOPs 估算;常见近似形式之一是与N ⋅

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 8:29:26

HTTP Content-Type

HTTP Content-Type 引言 HTTP协议中的Content-Type头字段是Web服务器与客户端之间进行数据交换的重要机制。它定义了服务器发送给客户端数据的类型,允许浏览器或其他客户端应用程序正确地处理和展示这些数据。本文将详细介绍HTTP Content-Type的用途、类型以及在实际应用中的…

作者头像 李华
网站建设 2026/5/5 12:04:04

VSCode 下如何检查 Vue 项目中未使用的依赖?

VSCode 下如何检查 Vue 项目中未使用的依赖? 文章目录 VSCode 下如何检查 Vue 项目中未使用的依赖?1. 使用 depcheck 工具(推荐)安装和使用:配置(可选): 2. 使用 npm-check 工具3. V…

作者头像 李华
网站建设 2026/5/6 8:29:11

SSM计算机毕设之基于ssm的网上手机商城系统基于SSM的手机商城(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/6 8:29:50

开题报告 雅韵古诗词系统python爬虫

目录 雅韵古诗词系统Python爬虫简介爬虫技术实现要点数据处理与存储反爬策略应对应用场景扩展 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 雅韵古诗词系统Python爬虫简介 雅韵古诗词系统是一个基于Py…

作者头像 李华
网站建设 2026/5/1 15:07:44

SSM计算机毕设之基于SSM的疫情健康上报管理系统行程上报、健康上报(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/28 8:17:26

AI应用架构师实战:智能控制系统架构的原型验证方法

AI应用架构师实战:智能控制系统架构的原型验证方法——从需求到落地的全流程指南 摘要/引言 作为AI应用架构师,你是否遇到过这样的困境? 设计了一套看起来“完美”的智能控制系统架构,落地时却发现模块协同失效(感知…

作者头像 李华