news 2026/7/4 8:07:57

CANN/Qwen3-Next算子扩展

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/Qwen3-Next算子扩展

NpuOpsTransformerExt

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

简介 | Overview

该目录包含用于Qwen3-Next 推理的 NPU 融合算子实现,目前包括:

  • rmsnormgated融合算子
  • Gated Delta Network (GDN)融合算子

这些算子以 PyTorch Extension 的形式实现,并在安装后注册到torch.ops命名空间中供框架调用。

核心组件 | Core Components

本模块主要包含以下关键组件:

  1. gated_delta_net/<op_dir>/算子实现目录,主要包含:

    • <op_name>.cpp:算子调用文件。
    • op_kernel/:算子 Kernel 具体实现代码。
  2. gated_delta_net/<op_dir>/CMakeLists.txt算子编译配置文件。

  3. npu_ops_transformer_ext/npu_ops_transformer_ext/npu_ops_def.cpp算子接口注册文件。

环境要求 | Prerequisites

  • Python ≥ 3.8
  • CANN Ascend Toolkit
  • PyTorch ≥ 2.1.0
  • torch_npu (PyTorchAdapter)

上述依赖的安装与环境配置请参考 Qwen3-Next README。

安装步骤 | Installation

  1. 进入算子目录,安装依赖:
pip install -r requirements.txt
  1. 从源码构建.whl包:
python -m build --wheel -n
  1. 安装构建好的.whl包:
pip install dist/*.whl --force-reinstall --no-deps
  1. (可选)如果需要重新编译,建议先清理编译缓存:
python setup.py clean

算子调用 | Usage

完成编译并安装.whl包后,自定义算子会注册到torch.ops命名空间中,可通过如下方式调用:

import torch import npu_ops_transformer_ext # 调用自定义算子 out = torch.ops.npu_ops_transformer_ext.my_ops(input)

其中:

  • npu_ops_transformer_ext为算子注册的 namespace
  • my_ops为具体算子名称(在npu_ops_def.cpp中定义)

当前模块包含的算子示例:

torch.ops.npu_ops_transformer_ext.recurrent_gated_delta_rule(...) torch.ops.npu_ops_transformer_ext.mambav2_rmsnormgated(...)

具体输入参数格式请参考对应算子的实现代码。

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/4 8:07:37

SQLMap深度解析:从SQL注入原理到实战渗透测试技巧

1. 项目概述&#xff1a;为什么SQLMap依然是渗透测试的“瑞士军刀”在网络安全领域&#xff0c;SQL注入漏洞就像一扇古老却从未被完全锁死的后门&#xff0c;而SQLMap则是打开这扇门最趁手、最全面的钥匙。从业十多年&#xff0c;我见过无数安全工具潮起潮落&#xff0c;但SQLM…

作者头像 李华
网站建设 2026/7/4 8:07:16

医用推拉自锁连接器的核心价值与设计要点

1. 医用推拉自锁连接器的核心价值解析在医疗设备领域&#xff0c;连接器的可靠性往往决定着整个系统的稳定性。我曾参与过多个医疗监护设备的研发项目&#xff0c;亲眼见证过因连接器松动导致的数据中断事件。最令人印象深刻的是某次ICU监护仪在夜间突然失去信号&#xff0c;医…

作者头像 李华
网站建设 2026/7/4 8:07:06

Mongood性能优化技巧:强制索引查询功能详解

Mongood性能优化技巧&#xff1a;强制索引查询功能详解 【免费下载链接】mongood A MongoDB GUI with Fluent Design 项目地址: https://gitcode.com/gh_mirrors/mo/mongood 作为一名MongoDB开发者&#xff0c;你是否曾为查询性能问题而烦恼&#xff1f;Mongood作为一款…

作者头像 李华
网站建设 2026/7/4 8:05:31

E-Viewer vs 网页版:为什么这款UWP客户端是e-hentai爱好者的首选

E-Viewer vs 网页版&#xff1a;为什么这款UWP客户端是e-hentai爱好者的首选 如果你是e-hentai.org的常客&#xff0c;一定体验过在浏览器中频繁切换标签页、加载缓慢、操作不便的烦恼。今天&#xff0c;我将为你介绍一款专为Windows用户打造的终极解决方案——E-Viewer&#…

作者头像 李华
网站建设 2026/7/4 8:04:11

OpenClaw机械爪配置:Agent与Models核心解析

1. 小龙虾OpenClaw配置解析&#xff1a;Agent与Models的核心差异在自动化控制领域&#xff0c;小龙虾OpenClaw作为一款开源的机械爪控制系统&#xff0c;其配置文件中Agent和Models的设定常常让初学者感到困惑。这两个配置模块虽然都服务于系统整体功能&#xff0c;但各自承担着…

作者头像 李华
网站建设 2026/7/4 8:01:19

opmsg与Mutt集成:终极指南实现加密邮件无缝整合

opmsg与Mutt集成&#xff1a;终极指南实现加密邮件无缝整合 【免费下载链接】opmsg opmsg message encryption 项目地址: https://gitcode.com/gh_mirrors/op/opmsg 想要在Mutt邮件客户端中实现端到端加密通信吗&#xff1f;opmsg是一个完美的GPG替代方案&#xff0c;专…

作者头像 李华