随着高质量文本数据可能在未来几年耗尽,“数据墙”现象迫使大模型预训练从追求更多token转向提升token质量。本文介绍了OPUS框架,一种动态数据选择方法,通过优化器诱导的投影效用选择,在预训练每一步根据优化器实际更新几何选择最有价值的数据。实验表明,OPUS在GPT-XL上使用FineWeb数据集时,平均准确率超过随机选择2.2%,同时计算量减少8倍。OPUS通过优化器感知效用目标、稳定的分布内代理构建和高效效用估计,为数据选择提供了原则性且可扩展的解决方案,使预训练能够在每一步都选择最有价值的token进行更新。
公开高质量文本数据可能在2026-2028年耗尽——这一被称为"数据墙"的现象,正在迫使大语言模型预训练从"更多token"转向"更好的token"。问题的核心在于:在每一步优化中,究竟哪些token应该被用来更新模型?
论文提出了OPUS(Optimizer-induced Projected Utility Selection,优化器诱导的投影效用选择)框架,这是一种动态数据选择方法,能够在预训练的每一步根据优化器的实际更新几何来选择最有价值的数据。在GPT-XL上使用FineWeb数据集的实验中,OPUS在10个基准测试上平均准确率超过随机选择2.2%,同时实现了8倍的计算量减少。
[Figure 1: OPUS在GPT-XL上使用FineWeb数据集的表现] 论文展示了OPUS相比随机选择在10个基准测试上平均提升2.2%准确率,并实现8倍计算量减少的效果。
现有方法的局限性
现有的数据选择方法存在明显缺陷。静态筛选方法(如FineWeb-Edu分类器和DCLM质量分类器)依赖固定的、与训练无关的启发式规则,假设样本的效用在模型演化过程中保持不变。而先前的动态选择方法在原始梯度空间中对候选样本评分,隐式假设使用SGD(Stochastic Gradient Descent,随机梯度下降)动态。
这与现代LLM训练存在根本性的不匹配——实际训练依赖AdamW和Muon等自适应优化器,这些优化器会预处理并重塑有效的更新方向。现有方法偏离了优化器的实际更新几何,导致优化轨迹不理想。
[Figure 2: 不同数据选择方法的比较] 论文对比了先前的数据选择方法与优化器诱导的数据选择方法,展示了两者在更新几何上的差异。
OPUS的核心设计
OPUS的核心洞察是:一个批次的价值仅在于它能够在优化器特定的几何结构下,将参数朝着改善模型在高质量目标分布上性能的方向移动。
论文通过三个关键组件实现这一目标:
(1) 优化器感知的效用目标:论文将效用形式化为在优化器诱导的更新几何中测量的、在保留代理分布上的预期一步改进。通过推导AdamW和Muon有效更新方向的闭式近似,OPUS在实际的优化器诱导几何中对数据评分。
(2) 稳定的分布内代理构建:论文提出BENCH-PROXY程序,通过从预训练语料库中检索与基准对齐的样本来构建代理池。具体做法是使用冻结的文本编码器嵌入目标基准验证集和预训练语料库中的候选文档,检索最相似的前M个预训练文档形成分布内代理池。
(3) 高效的效用估计:为避免在高维空间中实例化每样本梯度,论文结合Ghost技术和CountSketch投影。Ghost技术利用线性层中反向传播梯度的秩-1外积结构,CountSketch将结果投影到低维空间进行高效计算。
[Figure 3: OPUS流程概览] 论文展示了OPUS的端到端工作流程,包括代理构建、候选特征生成、软采样循环等步骤。
优化器诱导的预处理器
论文详细推导了两种主流优化器的预处理器形式。
对于AdamW,通过线性化一步前瞻更新,论文得到有效的数据依赖更新可以写成:预处理器为对角矩阵形式,保持了外积梯度的坐标可分离结构,使CountSketch投影成本为O(d_in + d_out)而非O(d_in × d_out)。
对于Muon,论文通过冻结Newton-Schulz算子进行近似,得到一个密集的、样本无关的左预处理器。由于坐标混合破坏了可分离性,投影成本为O(d_in × d_out)。
Boltzmann采样保持多样性
为防止贪婪top-k选择导致的多样性崩溃,OPUS采用Boltzmann软采样。虽然效用公式显式惩罚几何冗余(向量对齐),但贪婪选择对估计噪声仍然脆弱。代理方向是从小批次的随机估计,数据流是非平稳的。始终选择当前top-k可能使模型锁定在代理批次的瞬态噪声特征上。Boltzmann采样确保高效用候选被优先选择,同时互补候选保持非零概率。
[Table 1: 按参数的优化器分配] 论文详细说明了在Muon+AdamW设置中,Muon应用于Transformer块内的矩阵形状参数,而AdamW应用于嵌入、LM头和所有0/1D参数。
实验设置与结果
论文在多种设置下验证OPUS的效果。
从头预训练实验:在FineWeb和FineWeb-Edu上预训练GPT-2 Large(约7.74亿参数)和GPT-2 XL(约15亿参数),固定优化预算为300亿更新token。OPUS超越了工业级基线,甚至超过了完整的2000亿token训练。
持续预训练实验:在SciencePedia上对Qwen3-8B-Base(约80亿参数)进行持续预训练。OPUS仅使用5亿token就达到了优于完整30亿token训练的性能,展示了在专业领域的显著数据效率提升。
[Table 2: 基准评估配置] 论文列出了核心基准(包括MMLU、ANLI、HellaSwag、PIQA等)和域外基准的评估设置,大多数使用多选困惑度评估。
论文还分析了计算开销:OPUS仅产生4.7%的额外计算开销,这得益于Ghost技术和CountSketch投影的高效实现。
X写在最后
论文的主要贡献包括:提出了理论上有根据的优化器感知效用作为动态数据选择目标;设计了稳定的分布内代理构建方法BENCH-PROXY;通过Ghost和CountSketch实现可扩展的效用估计;以及使用Boltzmann采样防止多样性崩溃。
当数据成为稀缺资源时,数据选择不再是纯粹的预处理选择,而是优化过程的组成部分。OPUS为这一转变提供了一个原则性且可扩展的解决方案,使预训练能够在每一步都选择最有价值的token进行更新。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓