news 2025/12/25 7:57:41

速度与准确性的结合:量化感知 LLM 预训练 “QAP“

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
速度与准确性的结合:量化感知 LLM 预训练 “QAP“

概述

尽管 LLM 在许多自然语言处理任务中都表现出了不俗的性能,但其推理速度和内存占用却是生产中的主要瓶颈。量化是解决这一问题的一种广泛应用的方法。然而,传统的量化方法存在一个问题,即通过降低模型的准确性来换取推理速度的提高。

本文表明,通过在 LLM 训练阶段引入量化感知的 “量化感知预训练”(QAP),可以克服这一权衡问题。

具体来说,通过在模型训练过程中提前模拟量化噪声的方法,实现了一种即使在量化后精度也不会轻易下降的结构。

因此,与传统模型相比,即使量化位宽相同,也能获得更高的精度和更快的推理性能。特别是,事实证明,与 FP16 精度模型相比,4 位量化模型的精度几乎没有下降,从而实现了具有成本效益的 LLM 操作。

建议的方法

本研究提出的核心方法是 QAP。这是一种在模型训练过程中注入伪量化误差,为将来应用量化做准备的方法。与传统的训练后量化(post-training quantisation)不同,QAP 引导模型在学习阶段就自然获得抗量化表示。

具体来说,最容易受到量化影响的线性变换层(尤其是注意力和 MLP)是以 4 位或 6 位精度模拟的,这一点反映在损失函数中。此外,预训练期间使用的数据和超参数与现有的高精度模型基本相同,因此实施 QAP 的额外成本可以忽略不计。
此外,所提出的方法还为量化敏感权重和激活添加了软正则化,从而进一步提高了学习稳定性和量化后的泛化性能。

这种方法可以很容易地集成到标准训练流水线中,具有很强的实用性,将来可以直接实现更快、更节省资源的 LLM。

实验

为了验证所提方法的有效性,作者基于 LLaMA-2 和 Mistral-7B 编制了多个版本的 4 位和 6 位量化 LLM,并对其准确性和推理速度进行了评估。

基准测试使用了多种任务,包括 MMLU、GSM8K 和 HumanEval,并对每个模型的性能进行了比较。

结果显示,与不支持的基本模型相比,在相同位宽下,QAP 实现的模型的准确率提高了 6.3 个百分点。

特别是在推理速度方面,该模型比基于 FP16 的模型快达 2.5 倍,同时运行精度几乎没有损失。

对不同量化方案(如 SmoothQuant、AWQ、GPTQ)的鲁棒性也进行了验证,结果表明,QAP’ed 模型能保持稳定的性能,与量化方案无关。
此外,培训成本的增加也非常小,这表明在现实操作环境中实施 QAP 的门槛很低。

这些结果表明,QAP 可以作为建立快速、节省内存和精确 LLM 的一种有前途的方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/15 10:33:35

Qwen3-235B-FP8:千亿大模型落地革命,显存减半性能反超GPT-4o

Qwen3-235B-FP8:千亿大模型落地革命,显存减半性能反超GPT-4o 【免费下载链接】Qwen3-235B-A22B-Instruct-2507-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 导语 阿里巴巴最新发布的Qwen3-235B-A…

作者头像 李华
网站建设 2025/12/15 10:33:32

机械手臂力矩控制的MATLAB实现方案

机械手臂力矩控制的MATLAB实现方案 1. 机械臂动力学基础 1.1 动力学方程 机械臂的动力学方程通常表示为: M(q)qC(q,q˙)q˙G(q)F(q˙)τM(q)\ddot{q} C(q,\dot{q})\dot{q} G(q) F(\dot{q}) \tauM(q)q​C(q,q˙​)q˙​G(q)F(q˙​)τ 其中: M(q)M(q)…

作者头像 李华
网站建设 2025/12/15 10:31:40

基于springboot的生猪养殖信息化管理系统

随着我国生猪养殖产业的不断发展,信息化管理成为提升养殖效率与质量的关键。本项目基于Java语言开发,采用Spring Boot框架构建后端服务,结合微信小程序作为前端交互平台,并以MySQL数据库作为数据存储核心,打造了一套完…

作者头像 李华
网站建设 2025/12/15 10:31:08

智慧养老院|基于springboot + vue智慧养老院管理系统(源码+数据库+文档)

智慧养老院 目录 基于springboot vue智慧养老院系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue智慧养老院系统 一、前言 博主介绍&#xff1a…

作者头像 李华
网站建设 2025/12/15 10:28:48

终极解决方案:如何轻松启用Vencord的ModView功能突破权限限制

终极解决方案:如何轻松启用Vencord的ModView功能突破权限限制 【免费下载链接】Vencord The cutest Discord client mod 项目地址: https://gitcode.com/GitHub_Trending/ve/Vencord 在Discord社区管理中,你是否曾经遇到过这样的困扰:…

作者头像 李华