news 2026/5/9 19:50:42

高通-大坑-高通晓龙npu推理 Qwen3-VL Step-1 ONNX 推理,模型乱回答

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
高通-大坑-高通晓龙npu推理 Qwen3-VL Step-1 ONNX 推理,模型乱回答

背景

多模态大模型正在逐步从云端推理走向端侧部署。端侧部署的核心挑战不是简单地把 PyTorch 模型转换为 ONNX,而是要让模型在移动 SoC 的 NPU / DSP 加速器上稳定运行,同时保持可接受的生成质量、延迟和功耗。

本文讨论的是一次 Qwen3-VL 类视觉语言模型的端侧部署调试过程。目标平台是基于 Qualcomm Snapdragon 的移动端 AI 推理栈,典型工具链包括:

  • PyTorch / Hugging Face:用于原始模型加载、适配和参考推理。
  • AIMET:用于量化仿真、量化参数生成和 ONNX 导出。
  • ONNXRuntime:用于在进入设备侧转换前做 CPU 语义验证。
  • QAIRT / QNN:用于将 ONNX 和 encodings 转换为 Qualcomm NPU / HTP 可执行资产。
  • Genie 或类似 runtime:用于端侧文本生成 pipeline 组织。

开发目标是把 Qwen3-VL 的语言模型部分导出为适合移动端 NPU 编译的 ONNX,再进一步转换为设备侧可运行的推理包。为了降低调试复杂度,第一阶段只关注文本路径:给模型一个标准复述 prompt,要求 ONNXRuntime 输出与 Hugging Face 参考结果保持一致。

开发目标

本次调试的核心验收条件很简单:

给模型输入:

Repeat exactly: The quick br
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 19:45:16

别再为授权发愁!手把手教你用免费方案白嫖SRv6实验环境

旧时王谢堂前燕,飞入寻常百姓家。曾几何时,SRv6还是运营商核心网里那朵高不可攀的云,是实验室里的阳春白雪。如今,随着协议的演进,它正逐渐成为网络架构的标配。要说SRv6,我也算是半个老手了。从五年前的第…

作者头像 李华
网站建设 2026/5/9 19:25:42

CANN算子库hc_pre文档

hc_pre 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 产品支持情况 产品是否支持Atlas A2 推理系列产品√Atlas A3 推…

作者头像 李华
网站建设 2026/5/9 19:22:53

在Hermes Agent项目中自定义Provider并接入Taotoken聚合API

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在Hermes Agent项目中自定义Provider并接入Taotoken聚合API 对于使用Hermes Agent框架的开发者而言,将后端模型服务切换…

作者头像 李华