news 2026/4/15 8:24:11

MIT:LLM自适应量化策略

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MIT:LLM自适应量化策略

📖标题:Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling
🌐来源:arXiv, 2512.02010

🌟摘要

随着大型语言模型的增长,NVFP4 等低精度数值格式因其提供的速度和内存优势而变得越来越流行。然而,为了用NVFP4加速计算,前向传递中的所有矩阵乘法操作数-权重和激活,后向传递中的权重、激活和梯度必须量化为NVFP4,通常会导致训练过程中的发散和推理过程中的性能下降。为了解决这个问题,在这项工作中,我们介绍了Four Over Six ,这是对 NVFP4 量化算法的修改,该算法评估每个块的两个潜在比例因子。与整数格式不同,FP4 等浮点格式在每个块的接近最大值上具有最大的量化误差,我们发现这主要负责下游性能下降。我们发现,对于某些块,缩放到较小的 FP4 值会使可表示值的分布更加均匀,提高了接近最大值的表示。重要的是,4/6 可以在 NVIDIA Blackwell GPU 上实现,这使得在使用 NVFP4 训练 LLM 时可以使用是可行的。在 Transformer 和混合模型架构的预训练实验中,我们发现 4/6 在某些情况下可以防止分歧,与使用当前最先进的 NVFP4 训练配方训练的模型相比,将训练损失显着更接近 BF16。我们还发现 4/6 可以很容易地合并到许多不同的训练后量化方法中,并且通常可以提高下游精度。我们希望这激发了未来使用 NVFP4 训练模型和部署模型的工作。项目在https://github.com/mit-han-lab/fouroversix

🛎️文章简介

🔸研究问题:如何通过自适应块缩放来提高NVFP4量化的精度?
🔸主要贡献:论文提出了一种新的量化方法Four Over Six,通过自适应缩放实现了NVFP4量化的准确性提升,并减少了计算开销。

📝重点思路

🔸引入了Four Over Six方法,该方法在处理量化时允许块使用不同的缩放值(4或6),以更准确地表示几乎最大的值。
🔸在预训练和后训练量化过程中,采用了基于均方误差(MSE)的缩放选择规则,比较不同缩放条件下的量化效果,以选择最优缩放策略。
🔸利用NVIDIA Blackwell GPU的PTX指令高效实现Four Over Six,确保在保持高性能的同时,量化过程的开销在合理范围内。

🔎分析总结

🔸Four Over Six显著减少了大型值的量化误差,提高了多种模型架构的预训练性能,解决了目前NVFP4训练过程中出现的发散问题。
🔸在后训练量化中,Four Over Six与现有方法(如GPTQ、AWQ、SmoothQuant)结合使用,可广泛提升不同任务的模型性能,尤其在Word Perplexity指标上显示出较大改善。
🔸引入Four Over Six的模型在各类任务上表现出更接近于高精度模型的效果,尤其在处理具有极大值的块时,展现出更佳的量化精度。

💡个人观点

论文的创新点在于自适应量化策略,使得NVFP4量化在保留快速计算优势的同时,也能显著提升模型的准确性。

🧩附录


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 20:07:14

多智能体协同决策:应对复杂业务场景的技术突围之路

在数字化转型的浪潮中,企业正面临着前所未有的挑战。医疗诊断需要同时处理影像识别、病历分析和药物交互,金融风控必须兼顾市场预测、欺诈检测与合规审查,这些复杂场景已远超单一智能体的能力边界。500-AI-Agents-Projects项目通过跨行业实践…

作者头像 李华
网站建设 2026/4/13 18:55:30

5分钟快速上手DataEase:零代码构建专业数据可视化报表

5分钟快速上手DataEase:零代码构建专业数据可视化报表 【免费下载链接】DataEase 人人可用的开源 BI 工具 项目地址: https://gitcode.com/feizhiyun/dataease DataEase是一款人人可用的开源BI工具,让数据分析和可视化变得简单直观。无论您是数据…

作者头像 李华
网站建设 2026/4/12 16:54:13

Java Executors框架:面试必看的核心知识点

文章目录Java Executors框架:面试必看的核心知识点 ?一、Executors框架的前世今生1.1、Executors框架的作用1.2、Executors框架的核心类二、ThreadPoolExecutor的核心参数2.1、核心参数介绍2.2、核心参数的配置示例三、Executors框架的常用方法3.1、固定大小的线程…

作者头像 李华
网站建设 2026/4/12 13:23:08

Stressapptest:专业级系统压力测试工具实战指南

Stressapptest:专业级系统压力测试工具实战指南 【免费下载链接】stressapptest Stressful Application Test - userspace memory and IO test 项目地址: https://gitcode.com/gh_mirrors/st/stressapptest 系统稳定性检测的迫切需求 在日常系统运维和硬件测…

作者头像 李华
网站建设 2026/4/10 3:30:24

李跳跳自定义规则:告别手机弹窗困扰的智能解决方案

还在为手机应用中不断弹出的广告、更新提示和权限请求而烦恼吗?每天手动关闭这些弹窗不仅浪费时间,更严重影响了你的使用体验。李跳跳自定义规则为你提供了一套完整的弹窗跳过方案,让你的手机使用回归纯粹与高效。 【免费下载链接】LiTiaoTia…

作者头像 李华
网站建设 2026/4/14 1:52:21

Solaar实战指南:解锁Linux下罗技设备的隐藏潜力

Solaar实战指南:解锁Linux下罗技设备的隐藏潜力 【免费下载链接】Solaar Linux device manager for Logitech devices 项目地址: https://gitcode.com/gh_mirrors/so/Solaar 还在为Linux系统下罗技设备的管理而头疼吗?Solaar作为专为Linux打造的罗…

作者头像 李华