news 2026/5/25 15:14:33

在资源受限的边缘设备/终端设备上部署模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
在资源受限的边缘设备/终端设备上部署模型

EDGE-LLM

EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning & Voting
DAC 2024 佐治亚理工

论文主要目标是加速 边缘设备上的 微调/训练过程,但其采用的层级统一压缩技术对推理有“附带受益”。模型参数被永久压缩(剪枝和量化),推理时计算量变小
1)LUC:Layer-wise Unified Compression(分层压缩):每层动态量化及每层剪枝。对每一层进行量化和剪枝实验,计算每层的 MSE敏感度。根据敏感度分配不同的 bit-width 和剪枝比例:

  • 高敏感层 → 高 bit-width / 低剪枝
  • 低敏感层 → 低 bit-width / 高剪枝

2)Adaptive Layer Tuning(自适应层调优):训练阶段将 LLM 分成几段 segment,每次微调只更新一段层,其他层冻结,对当前 segment 的输出直接接到最后一层。

3)Adaptive Voting(自适应投票):此模块作用于训练周期中如何利用多段 segment 的输出。

实验中没有使用真实硬件,用一个精细的硬件性能模拟器,在给定硬件参数的前提下,估算如果真的有这样一块‘边缘 Transformer 加速器’,算法会跑多快。

MobileLLM

MobileLLM: Optimizing sub-billion parameter language models for on-device use cases.
ICML 2024 Meta

在手机等终端设备上运行超小型(≤1B 参数)但尽量高质量的 LLM,并证明结构设计比数据量更重要。

  • Deep-and-Thin 架构:对于小模型,深度比宽度更重要。
    深 → 能增加“表达层次” ;宽 → 容易让小模型浪费参数
    小模型容量有限,只能优先学“多级抽象”而非“大维度高精度表示”
    125M 模型从 12 层 → 30~42 层性能显著提升
  • 核心技术:为了参数/权重利用最大化,使用嵌入共享方法和分组查询注意力;为了内存/延迟优化,在相邻块之间共享权重
    • 嵌入共享:输入嵌入层和输出全连接层占总参数的比例非常高,重用输入嵌入层的权重 作为输出全连接层的权重。在 30 层的 125M 模型中,通过共享减少了 1600 万参数(11.8%),而准确率仅下降 0.2 个点。通过将节省的参数重新分配来增加层数(深度)(从 30 层增加到 32 层),可以恢复并提高准确率(+0.4 点),同时总参数量依然减少 10M。
    • 分组查询注意力:在小模型里,GQA 不是为了加速,而是减少 KV 冗余,效果更好。在 125M 模型中,将 KV-头的数量从 16 减少到 4,准确率保持相当,同时模型规模减少了近 10%。

只要模型规模足够小(<1B),就“具备 on-device 可部署性”。没有特别说明其边缘设备情况。

EdgeMoE

EdgeMoE: Empowering sparse large language models on mobile devices
TMC 2025 北邮

在资源受限的终端设备上,高效运行具有巨大参数量的“专家混合模型”(MoE)架构的 LLMs。解决“MoE 的专家太多,内存放不下,加载太慢”这个问题。

  • MoE = 大量专家,但每次只激活很少的专家,推理计算量和内存使用只与“活跃专家数量”有关,而不是总参数量

MoE 模型中非专家权重(attention、embeddings、Norm 等)是每个 token 必用的 hot weights(计算多但占内存少)。专家权重占 70%+ 参数,但激活很少(cold),属于 infrequent weights。

解决:内存只放 hot weights;专家 weights 放外部存储,被激活时再动态加载(swap in)

为了解决“按需加载”带来的 I/O 延迟,EdgeMoE 提出了两种创新技术:

  • Expert-wise Bitwidth Adaptation(专家级位宽自适应):不同专家对精度的敏感度不同,对每位专家采用不同的量化位宽
    每个专家本质上就是一个独立的前馈网络
    将每个专家单独量化,测试模型精度下降程度
    一个混合精度模型:如部分专家 INT8,一部分 INT4,一部分 INT2
  • In-memory Expert Management and Preloading(内存内专家管理与预加载):不同层之间的专家激活存在统计相关性。构建统计模型,根据前一层的专家激活情况,估计当前层专家激活的概率。在推理过程中,查询该模型并提前将最有可能被激活的专家预加载到内存
    离线构建激活概率表,在线时利用字典进行预测加载

边缘模型中的实验平台

  • Jetson TX2 是 NVIDIA 推出的面向边缘计算与 AI 推理的嵌入式计算平台。它集成了 ARM 架构 CPU、支持 CUDA 的 NVIDIA GPU 以及板载内存,设计目标是在低功耗条件下提供较强的 GPU 推理能力。在实验中,Jetson TX2 通常作为独立的边缘推理节点使用。模型一般先在云端或PC上训练模型,然后将模型部署到 Jetson TX2 上进行推理。实验所需的延迟、内存占用和功耗等指标,均可在设备本地通过代码和系统工具进行测量与记录。

  • Raspberry Pi(树莓派) 是一种通用型单板计算机,功能上类似一台轻量级的 ARM 小型电脑。树莓派不提供面向通用计算或深度学习的 GPU 加速能力,适合通用计算和轻量级服务部署。

需要强调的是:
Jetson TX2 和 Raspberry Pi 属于嵌入式/边缘计算设备,而非数据中心意义上的服务器,它们更关注功耗、体积和能效。在实验中,通常将其作为真实的边缘计算平台,用于评估算法或系统在资源受限环境下的性能表现。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 11:39:22

Dify平台在金融领域智能问答系统中的应用

Dify平台在金融领域智能问答系统中的应用 在金融服务行业&#xff0c;客户对响应速度、信息准确性和合规性的要求日益严苛。一个常见的场景是&#xff1a;一位投资者深夜登录手机银行&#xff0c;询问“当前R2级风险理财产品中&#xff0c;近三个月年化收益超过4%的产品有哪些&…

作者头像 李华
网站建设 2026/5/22 0:22:07

教育科技公司借助Dify实现自动化内容生成

教育科技公司借助Dify实现自动化内容生成 在教育内容生产一线&#xff0c;教研团队常常面临这样的困境&#xff1a;一份高中物理讲义&#xff0c;从资料整理到结构设计、语言润色&#xff0c;动辄耗费数小时甚至数天。而当课程迭代或区域教材更新时&#xff0c;整套内容又需重新…

作者头像 李华
网站建设 2026/5/21 11:07:20

【C/C++】C++引用和指针的对比

引用与指针的区别特性引用指针初始化要求必须初始化可以不初始化可修改性不能重新绑定可以指向不同对象空值不能为空可以为NULL/nullptr操作方式直接使用需要解引用(*)内存占用通常不占额外空间占用指针大小的空间二、引用的主要用途1、函数参数传递代码语言&#xff1a;javasc…

作者头像 李华
网站建设 2026/5/21 10:55:49

Dify支持的AI Agent类型及其适用场景盘点

Dify支持的AI Agent类型及其适用场景盘点 在企业纷纷拥抱大模型的今天&#xff0c;一个现实问题摆在面前&#xff1a;如何让AI真正落地业务&#xff1f;不是跑个demo&#xff0c;而是稳定、可维护、能迭代地嵌入到客服、知识管理甚至自动化流程中。许多团队一开始尝试手写调用L…

作者头像 李华
网站建设 2026/5/21 10:51:06

UDS 19服务在ECU中的实战案例与代码解析

UDS 19服务实战&#xff1a;如何让ECU“说出”它的故障故事你有没有遇到过这样的场景&#xff1f;车辆仪表盘突然亮起一个陌生的故障灯&#xff0c;维修技师接上诊断仪&#xff0c;几秒钟后报出一串像“C10001”这样的神秘代码。这背后&#xff0c;正是UDS 19服务在默默工作——…

作者头像 李华
网站建设 2026/5/21 12:02:42

Linux 进程间通信---命名管道

1.命名管道的原理1&#xff0c;如果是具有血缘关系的进程&#xff0c;想要通信我们可以使用匿名管道&#xff0c;如果我们想在不相关的进程之间交换数据&#xff0c;可以使用FIFO文件来做这项工作&#xff0c;它经常被称为命名管道。2.在内核中&#xff0c;操作系统会打开一个文…

作者头像 李华