news 2025/12/31 3:24:13

华为:LLM宽度与深度的适应性重用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
华为:LLM宽度与深度的适应性重用

📖标题:VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse
🌐来源:arXiv, 2512.14531

🌟摘要

大型语言模型 (LLM) 的快速扩展取得了显着的性能,但它也会导致高昂的内存成本。现有的参数高效方法,如剪枝和量化,主要压缩预训练模型,而不增强架构容量,从而达到基础模型的表示上限。在这项工作中,我们提出了 VersatileFFN,一种新颖的前馈网络 (FFN),它可以在固定参数预算内灵活地重用宽度和深度维度上的参数。受认知双重过程理论的启发,VersatileFFN 包括两个自适应路径:一个宽度变换器路径,从单个共享 FFN 生成子专家的混合,在不增加参数的情况下模仿稀疏专家路由,以及一个深度通用路径,递归地应用相同的 FFN 来模拟复杂标记的更深层次的处理。一个难度感知门控通过高效的宽度方向动态平衡两条路径,通过高效的宽度方向转向“简单”标记,并将更深的迭代细化分配给“硬”标记。至关重要的是,两条路径重用相同的参数,因此所有额外的容量都来自计算而不是内存。跨不同基准和模型尺度的实验证明了该方法的有效性。该代码可在 https://github.com/huawei-noah/noah-research/ tree/master/VersatileFFN。

🛎️文章简介

🔸研究问题:如何在大语言模型(LLM)中实现参数效率,同时保持高性能?
🔸主要贡献:论文提出VersatileFFN架构,通过宽度与深度的适应性重用,显著提升了模型的参数效率和计算能力。

📝重点思路

🔸设计了一个VersatileFFN架构,集成了宽度可变通道(宽路径)和深度可变通道(深路径),这两条路径共享基础权重。
🔸宽路径模拟虚拟Mixture-of-Experts(MoE)模块,快速响应领域特定的任务而不增加参数量。
🔸深路径实现递归计算能力,通过重用相同的FFN计算单元,动态分配更深的计算层次给复杂的token。
🔸引入Gumbel-Softmax控制器,根据token复杂度动态预测迭代次数,从而灵活分配计算资源。

🔎分析总结

🔸VersatileFFN在多个基准测试中表现优于其他方法,展示了其在相同参数预算内的强大性能。
🔸相比Mixture-of-Experts架构和传统的k-Loop方法,VersatileFFN在保持较低的参数增加的同时,显著提升了准确率。
🔸该方法有效地将宽度与深度计算结合,实现了在参数效率和推理能力之间的最佳平衡。

💡个人观点

论文的创新点在于通过深度和宽度的适应性组合,开创了一种不需显著增加参数量即可提升模型能力的新范式,适用于资源受限环境中的推理任务。

🧩附录

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/30 5:36:08

5个高效方法优化二维码识别率

5个高效方法优化二维码识别率 【免费下载链接】qrazybox QR Code Analysis and Recovery Toolkit 项目地址: https://gitcode.com/gh_mirrors/qr/qrazybox 二维码作为现代信息传递的重要载体,其识别效率直接影响用户体验。本文针对二维码识别率优化问题&…

作者头像 李华
网站建设 2025/12/21 16:33:48

5分钟掌握HIDDriver虚拟输入设备快速安装指南

5分钟掌握HIDDriver虚拟输入设备快速安装指南 【免费下载链接】HIDDriver 虚拟鼠标键盘驱动程序,使用驱动程序执行鼠标键盘操作。 项目地址: https://gitcode.com/gh_mirrors/hi/HIDDriver 想要实现毫秒级响应的虚拟鼠标键盘操作吗?HIDDriver作为…

作者头像 李华
网站建设 2025/12/18 9:35:35

基于mask-rcnn_regnetx的苹果成熟度检测系统实现与优化

本数据集为苹果成熟度检测数据集,采用YOLOv8格式标注,包含150张图像,分为新鲜苹果(fresh_apple)和腐烂苹果(rotten_apple)两个类别。数据集通过qunshankj平台于2024年11月1日创建,并于同年11月9日导出,遵循CC BY 4.0许…

作者头像 李华
网站建设 2025/12/18 9:35:06

【MCP续证冲刺班】:98%通过率背后的4大实战训练法

第一章:MCP续证考试全景解析微软认证专家(MCP)续证考试是维持技术资质有效性的重要环节,涉及知识更新、技能验证与实践能力评估。随着技术栈的快速演进,续证不仅考察原有知识点的掌握程度,更强调对新工具、…

作者头像 李华
网站建设 2025/12/26 16:13:16

匿名函数在 PHP 中是一个 Closure 类的实例的庖丁解牛

“匿名函数在 PHP 中是一个 Closure 类的实例”——这一陈述看似简单,却揭示了 PHP 如何将函数式编程的抽象概念(函数作为一等公民)落地为面向对象的内部实现。 这不仅是语言设计的巧妙妥协,更是其支持高阶函数、闭包、回调等现代…

作者头像 李华