news 2026/5/21 19:35:11

揭秘边缘AI性能7倍提升:模型量化与推测解码技术

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
揭秘边缘AI性能7倍提升:模型量化与推测解码技术

某中心的Jetson AGX Thor边缘计算平台,自2025年8月发布以来,通过持续的软件优化,其生成式AI性能已实现了7倍的增长。

持续的软件优化

随着最新的vLLM容器发布,与8月底首发日的性能相比,Jetson Thor在相同模型和量化配置下,性能提升了高达3.5倍。表1对比了Llama 3.3 70B和DeepSeek R1 70B模型在8月发布时与2025年9月最新基准测试中的输出令牌/秒性能。

系列模型Jetson AGX Thor 2025年9月 (输出令牌/秒)Jetson AGX Thor 2025年8月 (输出令牌/秒)相比发布时的速度提升
LlamaLlama 3.3 70B41.512.63.3x
DeepSeekDeepSeek R1 70B40.2911.53.5x

表1. Llama 3.3和DeepSeek R1发布时与最新基准测试的令牌/秒输出对比
基准测试配置:序列长度:2048,输出序列长度:128;最大并发数:8;电源模式:MAXN

Jetson Thor的vLLM容器现已支持Eagle 3推测解码,可进一步提升生成式AI模型的性能。例如,在Llama 3.3 70B模型上使用推测解码,可获得88.62输出令牌/秒,相比首发性能实现了7倍加速。

零日支持运行最新模型

开发者可在边缘端使用Jetson Thor,并享受零日支持,运行最新、最强大的生成式AI模型。例如,gpt-oss在Jetson AGX Thor发布当日就获得了llamacpp/ollama的支持,同时也得到了vLLM的支持。同样,许多某中心Nemotron模型也获得了周级零日支持,例如:

  • Nemotron Nano 9B v2
  • Nemotron Nano 9B v2 FP8
  • Llama-3.1 Nemotron Nano 8B v1
  • Llama-3.1 Nemotron Nano 4B v1.1

通过量化与推测解码实现最大性能

要充分发挥Jetson Thor在边缘生成式AI方面的强大能力,需要采用正确的技术。量化与推测解码是加速LLM和VLM推理的两大核心策略。

量化:缩小模型尺寸,加速推理

量化本质上是降低模型数据(权重和激活)数值精度的过程。这带来两大优势:

  1. 更小的内存占用:这是解锁在设备上运行更大模型的关键。通过减少每个参数所需的字节数,可以加载原本因尺寸过大而无法运行的模型。
  2. 更快的存储器访问:更小的权重意味着需要从存储器提取到计算核心的字节数更少,直接降低了延迟,这对边缘应用至关重要。

在Jetson Thor上,两种最重要的格式是:

  • FP8:这是近乎无损优化的首选第一步。它能将权重内存减半,使得70B模型得以在设备上实际加载和运行。校准得当后,FP8的精度非常接近FP16基线,是对话和通用工作负载的“安全第一步”。
  • W4A16(4位权重,16位激活):通过将静态模型权重量化为超紧凑的4位,同时保持动态计算(激活)在更高精度的16位,W4A16解锁了在边缘运行超大规模模型的可能性。

格式选择建议:从W4A16开始尝试。它通常能提供最高的推理速度和最低的内存占用。如果量化后的模型在任务上的精度满足要求,则坚持使用。若任务更复杂,发现W4A16精度不足,则切换到FP8。

推测解码:采用草稿-验证方法提升推理

选定量化格式后,下一个重要的性能杠杆是推测解码。该技术通过使用两个模型来加速推理:一个快速的小型“草稿”模型和一个准确的大型“目标”模型。
其工作原理是:

  1. 草稿模型快速生成一批候选令牌。
  2. 目标模型一次性验证整个令牌块,而不是逐个令牌生成。

这种“起草-验证”过程每个周期能生成多个令牌,同时保证最终输出与目标模型单独产生的结果完全相同。成功与否由接受率(草稿令牌被接受的百分比)衡量。高接受率能带来显著的延迟优势。

在实验中,EAGLE-3推测解码带来了最佳的加速效果。在Llama 3.3 70B(W4A16)上的基准测试显示,该功能实现了2.5倍的性能提升。

结合量化与推测解码

将这两种技术结合使用能产生更佳的效果。可以使用内置了优秀EAGLE-3支持的vLLM。某中心正在发布一个独立的vLLM容器,支持Jetson Thor,并每月更新包含最新的改进。

以下是找到模型质量与推理性能最佳平衡点的分步指南:

  1. 建立质量基线:在优化前,以尽可能高的精度加载模型,验证其能否正确执行任务。
  2. 使用量化进行优化:逐步降低权重精度,在每一步测试精度,直到质量不再满足要求时停止。
  3. 进行现实基准测试:使用模拟工作负载的性能基准来验证最终配置。

如果所选模型仍然不够快,则使用更小的模型重复此过程。可以通过实践教程了解如何运行这些性能基准测试。

现在,开发者可以满怀信心地提升其生成式AI模型在Jetson Thor上的性能了。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 12:06:02

NoteGen跨平台Markdown笔记软件完整使用指南

NoteGen跨平台Markdown笔记软件完整使用指南 【免费下载链接】note-gen 一款跨平台的 Markdown AI 笔记软件,致力于使用 AI 建立记录和写作的桥梁。 项目地址: https://gitcode.com/codexu/note-gen NoteGen是一款革命性的跨平台Markdown笔记应用&#xff0c…

作者头像 李华
网站建设 2026/5/21 0:28:52

音乐可视化神器:让桌面随音乐舞动的终极指南 [特殊字符]

音乐可视化神器:让桌面随音乐舞动的终极指南 🎵 【免费下载链接】monstercat-visualizer A real time audio visualizer for Rainmeter similar to the ones used in the Monstercat videos. 项目地址: https://gitcode.com/gh_mirrors/mo/monstercat-…

作者头像 李华
网站建设 2026/5/20 12:36:12

Sarasa Gothic字体选择完全指南:最佳开源字体方案详解

Sarasa Gothic字体选择完全指南:最佳开源字体方案详解 【免费下载链接】Sarasa-Gothic Sarasa Gothic / 更纱黑体 / 更紗黑體 / 更紗ゴシック / 사라사 고딕 项目地址: https://gitcode.com/gh_mirrors/sa/Sarasa-Gothic Sarasa Gothic(更纱黑体&…

作者头像 李华
网站建设 2026/5/20 20:23:31

服务器卡了还在跑机房?DashDot + cpolar,手机躺看监控数据

DashDot 是一款轻量级服务器监控工具,能实时展示 CPU、内存、存储、网络等状态,界面有赛博朋克风和极简白两种主题,数据可视化做得很直观。它适合运维人员、个人服务器用户,甚至 NAS 玩家 —— 不用像 Prometheus 那样配置复杂&am…

作者头像 李华
网站建设 2026/5/20 12:36:48

VIT位置编码缺陷:影响OCR细粒度识别的原因

VIT位置编码缺陷:影响OCR细粒度识别的原因 📖 OCR文字识别的技术演进与挑战 光学字符识别(OCR)作为连接物理世界与数字信息的关键技术,广泛应用于文档数字化、票据处理、智能交通等领域。随着深度学习的发展&#xff0…

作者头像 李华
网站建设 2026/5/21 11:10:40

ZLMediaKit录制功能终极指南:5分钟快速构建专业视频录制系统

ZLMediaKit录制功能终极指南:5分钟快速构建专业视频录制系统 【免费下载链接】ZLMediaKit 项目地址: https://gitcode.com/gh_mirrors/zlm/ZLMediaKit 想要构建一个功能强大的流媒体服务器录制系统?ZLMediaKit录制功能正是您需要的完美解决方案&…

作者头像 李华