在资源受限的边缘设备/终端设备上部署模型-平芜编程栈

EDGE-LLM

EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning & Voting
DAC 2024 佐治亚理工

论文主要目标是加速边缘设备上的微调/训练过程，但其采用的层级统一压缩技术对推理有“附带受益”。模型参数被永久压缩（剪枝和量化），推理时计算量变小
1）LUC：Layer-wise Unified Compression（分层压缩）：每层动态量化及每层剪枝。对每一层进行量化和剪枝实验，计算每层的 MSE敏感度。根据敏感度分配不同的 bit-width 和剪枝比例：

高敏感层 → 高 bit-width / 低剪枝
低敏感层 → 低 bit-width / 高剪枝

2）Adaptive Layer Tuning（自适应层调优）：训练阶段将 LLM 分成几段 segment，每次微调只更新一段层，其他层冻结，对当前 segment 的输出直接接到最后一层。

3）Adaptive Voting（自适应投票）：此模块作用于训练周期中如何利用多段 segment 的输出。

实验中没有使用真实硬件，用一个精细的硬件性能模拟器，在给定硬件参数的前提下，估算如果真的有这样一块‘边缘 Transformer 加速器’，算法会跑多快。

MobileLLM

MobileLLM: Optimizing sub-billion parameter language models for on-device use cases.
ICML 2024 Meta

在手机等终端设备上运行超小型（≤1B 参数）但尽量高质量的 LLM，并证明结构设计比数据量更重要。

Deep-and-Thin 架构：对于小模型，深度比宽度更重要。
深 → 能增加“表达层次” ；宽 → 容易让小模型浪费参数
小模型容量有限，只能优先学“多级抽象”而非“大维度高精度表示”
125M 模型从 12 层 → 30~42 层性能显著提升
核心技术：为了参数/权重利用最大化，使用嵌入共享方法和分组查询注意力；为了内存/延迟优化，在相邻块之间共享权重
- 嵌入共享：输入嵌入层和输出全连接层占总参数的比例非常高，重用输入嵌入层的权重作为输出全连接层的权重。在 30 层的 125M 模型中，通过共享减少了 1600 万参数（11.8%），而准确率仅下降 0.2 个点。通过将节省的参数重新分配来增加层数（深度）（从 30 层增加到 32 层），可以恢复并提高准确率（+0.4 点），同时总参数量依然减少 10M。
- 分组查询注意力：在小模型里，GQA 不是为了加速，而是减少 KV 冗余，效果更好。在 125M 模型中，将 KV-头的数量从 16 减少到 4，准确率保持相当，同时模型规模减少了近 10%。

只要模型规模足够小（<1B），就“具备 on-device 可部署性”。没有特别说明其边缘设备情况。

EdgeMoE

EdgeMoE: Empowering sparse large language models on mobile devices
TMC 2025 北邮

在资源受限的终端设备上，高效运行具有巨大参数量的“专家混合模型”（MoE）架构的 LLMs。解决“MoE 的专家太多，内存放不下，加载太慢”这个问题。

MoE = 大量专家，但每次只激活很少的专家，推理计算量和内存使用只与“活跃专家数量”有关，而不是总参数量

MoE 模型中非专家权重（attention、embeddings、Norm 等）是每个 token 必用的 hot weights（计算多但占内存少）。专家权重占 70%+ 参数，但激活很少（cold），属于 infrequent weights。

解决：内存只放 hot weights；专家 weights 放外部存储，被激活时再动态加载（swap in）

为了解决“按需加载”带来的 I/O 延迟，EdgeMoE 提出了两种创新技术：

Expert-wise Bitwidth Adaptation（专家级位宽自适应）：不同专家对精度的敏感度不同，对每位专家采用不同的量化位宽
每个专家本质上就是一个独立的前馈网络
将每个专家单独量化，测试模型精度下降程度
一个混合精度模型：如部分专家 INT8，一部分 INT4，一部分 INT2
In-memory Expert Management and Preloading（内存内专家管理与预加载）：不同层之间的专家激活存在统计相关性。构建统计模型，根据前一层的专家激活情况，估计当前层专家激活的概率。在推理过程中，查询该模型并提前将最有可能被激活的专家预加载到内存
离线构建激活概率表，在线时利用字典进行预测加载

边缘模型中的实验平台

Jetson TX2 是 NVIDIA 推出的面向边缘计算与 AI 推理的嵌入式计算平台。它集成了 ARM 架构 CPU、支持 CUDA 的 NVIDIA GPU 以及板载内存，设计目标是在低功耗条件下提供较强的 GPU 推理能力。在实验中，Jetson TX2 通常作为独立的边缘推理节点使用。模型一般先在云端或PC上训练模型，然后将模型部署到 Jetson TX2 上进行推理。实验所需的延迟、内存占用和功耗等指标，均可在设备本地通过代码和系统工具进行测量与记录。
Raspberry Pi（树莓派）是一种通用型单板计算机，功能上类似一台轻量级的 ARM 小型电脑。树莓派不提供面向通用计算或深度学习的 GPU 加速能力，适合通用计算和轻量级服务部署。

需要强调的是：
Jetson TX2 和 Raspberry Pi 属于嵌入式/边缘计算设备，而非数据中心意义上的服务器，它们更关注功耗、体积和能效。在实验中，通常将其作为真实的边缘计算平台，用于评估算法或系统在资源受限环境下的性能表现。

在资源受限的边缘设备/终端设备上部署模型

EDGE-LLM

MobileLLM

EdgeMoE

边缘模型中的实验平台

Dify平台在金融领域智能问答系统中的应用

教育科技公司借助Dify实现自动化内容生成

【C/C++】C++引用和指针的对比

Dify支持的AI Agent类型及其适用场景盘点

UDS 19服务在ECU中的实战案例与代码解析

Linux 进程间通信---命名管道