news 2026/5/21 19:35:11

揭秘边缘AI性能7倍提升：模型量化与推测解码技术

张小明

前端开发工程师

1.2k 24

文章封面图 — 揭秘边缘AI性能7倍提升：模型量化与推测解码技术

某中心的Jetson AGX Thor边缘计算平台，自2025年8月发布以来，通过持续的软件优化，其生成式AI性能已实现了7倍的增长。

持续的软件优化

随着最新的vLLM容器发布，与8月底首发日的性能相比，Jetson Thor在相同模型和量化配置下，性能提升了高达3.5倍。表1对比了Llama 3.3 70B和DeepSeek R1 70B模型在8月发布时与2025年9月最新基准测试中的输出令牌/秒性能。

系列	模型	Jetson AGX Thor 2025年9月 (输出令牌/秒)	Jetson AGX Thor 2025年8月 (输出令牌/秒)	相比发布时的速度提升
Llama	Llama 3.3 70B	41.5	12.6	3.3x
DeepSeek	DeepSeek R1 70B	40.29	11.5	3.5x

表1. Llama 3.3和DeepSeek R1发布时与最新基准测试的令牌/秒输出对比
基准测试配置：序列长度：2048，输出序列长度：128；最大并发数：8；电源模式：MAXN

Jetson Thor的vLLM容器现已支持Eagle 3推测解码，可进一步提升生成式AI模型的性能。例如，在Llama 3.3 70B模型上使用推测解码，可获得88.62输出令牌/秒，相比首发性能实现了7倍加速。

零日支持运行最新模型

开发者可在边缘端使用Jetson Thor，并享受零日支持，运行最新、最强大的生成式AI模型。例如，gpt-oss在Jetson AGX Thor发布当日就获得了llamacpp/ollama的支持，同时也得到了vLLM的支持。同样，许多某中心Nemotron模型也获得了周级零日支持，例如：

Nemotron Nano 9B v2
Nemotron Nano 9B v2 FP8
Llama-3.1 Nemotron Nano 8B v1
Llama-3.1 Nemotron Nano 4B v1.1

通过量化与推测解码实现最大性能

要充分发挥Jetson Thor在边缘生成式AI方面的强大能力，需要采用正确的技术。量化与推测解码是加速LLM和VLM推理的两大核心策略。

量化：缩小模型尺寸，加速推理

量化本质上是降低模型数据（权重和激活）数值精度的过程。这带来两大优势：

更小的内存占用：这是解锁在设备上运行更大模型的关键。通过减少每个参数所需的字节数，可以加载原本因尺寸过大而无法运行的模型。
更快的存储器访问：更小的权重意味着需要从存储器提取到计算核心的字节数更少，直接降低了延迟，这对边缘应用至关重要。

在Jetson Thor上，两种最重要的格式是：

FP8：这是近乎无损优化的首选第一步。它能将权重内存减半，使得70B模型得以在设备上实际加载和运行。校准得当后，FP8的精度非常接近FP16基线，是对话和通用工作负载的“安全第一步”。
W4A16（4位权重，16位激活）：通过将静态模型权重量化为超紧凑的4位，同时保持动态计算（激活）在更高精度的16位，W4A16解锁了在边缘运行超大规模模型的可能性。

格式选择建议：从W4A16开始尝试。它通常能提供最高的推理速度和最低的内存占用。如果量化后的模型在任务上的精度满足要求，则坚持使用。若任务更复杂，发现W4A16精度不足，则切换到FP8。

推测解码：采用草稿-验证方法提升推理

选定量化格式后，下一个重要的性能杠杆是推测解码。该技术通过使用两个模型来加速推理：一个快速的小型“草稿”模型和一个准确的大型“目标”模型。
其工作原理是：

草稿模型快速生成一批候选令牌。
目标模型一次性验证整个令牌块，而不是逐个令牌生成。

这种“起草-验证”过程每个周期能生成多个令牌，同时保证最终输出与目标模型单独产生的结果完全相同。成功与否由接受率（草稿令牌被接受的百分比）衡量。高接受率能带来显著的延迟优势。

在实验中，EAGLE-3推测解码带来了最佳的加速效果。在Llama 3.3 70B（W4A16）上的基准测试显示，该功能实现了2.5倍的性能提升。

结合量化与推测解码

将这两种技术结合使用能产生更佳的效果。可以使用内置了优秀EAGLE-3支持的vLLM。某中心正在发布一个独立的vLLM容器，支持Jetson Thor，并每月更新包含最新的改进。

以下是找到模型质量与推理性能最佳平衡点的分步指南：

建立质量基线：在优化前，以尽可能高的精度加载模型，验证其能否正确执行任务。
使用量化进行优化：逐步降低权重精度，在每一步测试精度，直到质量不再满足要求时停止。
进行现实基准测试：使用模拟工作负载的性能基准来验证最终配置。

如果所选模型仍然不够快，则使用更小的模型重复此过程。可以通过实践教程了解如何运行这些性能基准测试。

现在，开发者可以满怀信心地提升其生成式AI模型在Jetson Thor上的性能了。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/5/21 12:06:02

NoteGen跨平台Markdown笔记软件完整使用指南

NoteGen跨平台Markdown笔记软件完整使用指南【免费下载链接】note-gen 一款跨平台的 Markdown AI 笔记软件，致力于使用 AI 建立记录和写作的桥梁。项目地址: https://gitcode.com/codexu/note-gen NoteGen是一款革命性的跨平台Markdown笔记应用&#xff0c…

作者头像

李华

网站建设 2026/5/21 0:28:52

音乐可视化神器：让桌面随音乐舞动的终极指南 [特殊字符]

音乐可视化神器：让桌面随音乐舞动的终极指南 🎵 【免费下载链接】monstercat-visualizer A real time audio visualizer for Rainmeter similar to the ones used in the Monstercat videos. 项目地址: https://gitcode.com/gh_mirrors/mo/monstercat-…

作者头像

李华

网站建设 2026/5/20 12:36:12

Sarasa Gothic字体选择完全指南：最佳开源字体方案详解

Sarasa Gothic字体选择完全指南：最佳开源字体方案详解【免费下载链接】Sarasa-Gothic Sarasa Gothic / 更纱黑体 / 更紗黑體 / 更紗ゴシック / 사라사 고딕 项目地址: https://gitcode.com/gh_mirrors/sa/Sarasa-Gothic Sarasa Gothic（更纱黑体&…

作者头像

李华

网站建设 2026/5/20 20:23:31

服务器卡了还在跑机房？DashDot + cpolar，手机躺看监控数据

DashDot 是一款轻量级服务器监控工具，能实时展示 CPU、内存、存储、网络等状态，界面有赛博朋克风和极简白两种主题，数据可视化做得很直观。它适合运维人员、个人服务器用户，甚至 NAS 玩家 —— 不用像 Prometheus 那样配置复杂&am…

作者头像

李华

网站建设 2026/5/20 12:36:48

VIT位置编码缺陷：影响OCR细粒度识别的原因

VIT位置编码缺陷：影响OCR细粒度识别的原因 📖 OCR文字识别的技术演进与挑战光学字符识别（OCR）作为连接物理世界与数字信息的关键技术，广泛应用于文档数字化、票据处理、智能交通等领域。随着深度学习的发展&#xff0…

作者头像

李华

网站建设 2026/5/21 11:10:40

ZLMediaKit录制功能终极指南：5分钟快速构建专业视频录制系统

ZLMediaKit录制功能终极指南：5分钟快速构建专业视频录制系统【免费下载链接】ZLMediaKit 项目地址: https://gitcode.com/gh_mirrors/zlm/ZLMediaKit 想要构建一个功能强大的流媒体服务器录制系统？ZLMediaKit录制功能正是您需要的完美解决方案&…

作者头像

李华