高通-大坑-高通晓龙npu推理 Qwen3-VL Step-1 ONNX 推理，模型乱回答-平芜编程栈

背景

多模态大模型正在逐步从云端推理走向端侧部署。端侧部署的核心挑战不是简单地把 PyTorch 模型转换为 ONNX，而是要让模型在移动 SoC 的 NPU / DSP 加速器上稳定运行，同时保持可接受的生成质量、延迟和功耗。

本文讨论的是一次 Qwen3-VL 类视觉语言模型的端侧部署调试过程。目标平台是基于 Qualcomm Snapdragon 的移动端 AI 推理栈，典型工具链包括：

PyTorch / Hugging Face：用于原始模型加载、适配和参考推理。
AIMET：用于量化仿真、量化参数生成和 ONNX 导出。
ONNXRuntime：用于在进入设备侧转换前做 CPU 语义验证。
QAIRT / QNN：用于将 ONNX 和 encodings 转换为 Qualcomm NPU / HTP 可执行资产。
Genie 或类似 runtime：用于端侧文本生成 pipeline 组织。

开发目标是把 Qwen3-VL 的语言模型部分导出为适合移动端 NPU 编译的 ONNX，再进一步转换为设备侧可运行的推理包。为了降低调试复杂度，第一阶段只关注文本路径：给模型一个标准复述 prompt，要求 ONNXRuntime 输出与 Hugging Face 参考结果保持一致。

开发目标

本次调试的核心验收条件很简单：

给模型输入：

Repeat exactly: The quick br

AI-XR元宇宙隐私保护：差分隐私、联邦学习与安全多方计算融合实战

1. 项目概述：当AI-XR元宇宙遇上隐私安全，我们如何构建可信的虚拟世界？最近几年，AI驱动的扩展现实（XR）和元宇宙概念火得一塌糊涂，从虚拟会议、沉浸式游戏到数字孪生工厂，似乎一切都在…

李华

别再为授权发愁！手把手教你用免费方案白嫖SRv6实验环境

旧时王谢堂前燕，飞入寻常百姓家。曾几何时，SRv6还是运营商核心网里那朵高不可攀的云，是实验室里的阳春白雪。如今，随着协议的演进，它正逐渐成为网络架构的标配。要说SRv6，我也算是半个老手了。从五年前的第…

李华

【高炉炼铁领域炉温监测、预警、调控智能体设计与应用】~系列文章14：时序数据处理：捕捉温度的脉搏

第14期：时序数据处理：捕捉温度的脉搏 📈 时序数据 | 阅读时长：14分钟 | 难度：⭐⭐⭐⭐📌 引言温度是时间的函数，时序数据是高炉最核心的数据类型！ 时序数据处理的关键挑战&#xff…

李华

别再花钱买设备了！旧电脑+免费iKuai系统，DIY一个家庭PPPoE服务器全记录

零成本打造家庭PPPoE服务器：旧电脑爱快系统的极客实践指南你是否曾为家中多设备联网管理而头疼？或是想给访客一个独立网络却不愿额外购买硬件？一台尘封的旧电脑加上免费的爱快(iKuai)系统，就能变身为专业级PPPoE服务器。这不仅是…

李华

CANN算子库hc_pre文档

hc_pre 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法，提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer 产品支持情况产品是否支持Atlas A2 推理系列产品√Atlas A3 推…

李华

在Hermes Agent项目中自定义Provider并接入Taotoken聚合API

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Hermes Agent项目中自定义Provider并接入Taotoken聚合API 对于使用Hermes Agent框架的开发者而言，将后端模型服务切换…

李华