news 2026/2/3 18:43:17

TensorRT-LLM部署Qwen3-14B

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TensorRT-LLM部署Qwen3-14B

TensorRT-LLM部署

TensorRT-LLM 官方文档地址:https://nvidia.github.io/TensorRT-LLM/overview.html

下载相关的镜像

Nvidia官方镜像网址:https://catalog.ngc.nvidia.com/search?filters=resourceType%7CContainer%7Ccontainer&query=tensorrt-llm

#下载Nvidia tensorRT-LLM 镜像, docker pull nvcr.io/nvidia/tensorrt-llm/release:1.2.0rc4

注意:release版本镜像并没有将模型转换checkpoint的依赖环境,没有tensorrt-llm ,需要手动安装,或者找其他版本的镜像(本人测试了 devel 版本(nvcr.io/nvidia/tensorrt-llm/devel:1.2.0rc4)仍然没有,网络建议的build版本、engine版本没有找到,只能自己安装)

进入镜像,安装相关的的依赖:

pip install tensorrt-llm pip install transformers accelerate sentencepiece safetensors huggingface_hu #如果你是 Qwen3 系列,还必须安装: pip install tiktoken pip install einops #如果你是 LLaMA: pip install protobuf #如果你用 chatml / tokenizer 的特殊格式: pip install sentencepiece

准备基础模型

Qwen3-14B: 官方镜像即可

#存放目录: /mnt/data/models/Qwen/Qwen3-14B

下载github转换脚本文件

TensorRT-LLMgithub地址: https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/models/core/qwen/convert_checkpoint.py

#存放文件目录: /mnt/data/models/tensor/convert_checkpoint.py

转换checkpoint:

python convert_checkpoint.py \ --model_dir /mnt/data/models/Qwen/Qwen3-14B \ --output_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/fp16 \ --dtype fp16

转换模型checkpoint不需要GPU资源,但是当前只使用一个镜像自己完成所有的过程,则需要GPU资源

原则上不需要 GPU

  • 仅涉及权重 reshape/分片
  • 仅涉及 JSON 结构、配置生成
  • 不包含算子编译

构建engine文件:

trtllm-build \ --checkpoint_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/float16 \ --output_dir /mnt/data/models/tensor/engine/qwen3-14b-engine \ --gemm_plugin float16 \ --max_batch_size 8 \ --max_input_len 2048 \ --max_seq_len 4096 \ --kv_cache_type paged \ --workers 16 \ --log_level info

注意:

engine构建是需要GPU资源的,构建engine的GPU资源需要和部实际部署的GPU资源保持一致,

例如:部署使用单卡L20,则构建的engine必须使用相同的GPU资源,型号数量要相同

此步骤需要:

  • CUDA kernel 生成
  • TensorRT builder 编译
  • GPU 上的 profile 校准
  • Plugin 编译优化

必须使用 GPU

  • TensorRT engine 构建只能在 GPU 上完成
  • 并且必须使用目标 GPU(或者至少与目标 GPU 架构兼容)

为什么需要 GPU?

  • TensorRT 需要 GPU 的Compute Capability来生成最优 kernel
  • 不同显卡(A100 / H100 / L20 / RTX4090)生成的 Engine 不能通用!

部署engine:

trtllm-serve serve /mnt/data/models/tensor/engine/qwen3-14b-engine \ --tokenizer /mnt/data/models/Qwen/Qwen3-14B \ --host 0.0.0.0 \ --port 8000 \ --log_level info \ --backend tensorrt \ --tp_size 1 \ --max_batch_size 8 \ --max_seq_len 4096
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/2 0:08:14

Keil MDK下载:工业控制项目开发完整指南

Keil MDK 下载与工业控制开发实战:从零搭建高可靠嵌入式系统 在工业自动化现场,你是否曾遇到这样的场景? PLC 控制柜里,MCU 主控板突然死机;电机驱动程序跑飞,导致产线停摆;新同事花了一周才把…

作者头像 李华
网站建设 2026/2/3 10:51:56

从零开始训练语音模型:GPT-SoVITS全流程操作指南

从零开始训练语音模型:GPT-SoVITS全流程操作指南 在短视频、虚拟主播和有声内容爆发的今天,个性化语音合成早已不再是科技巨头的专属能力。你是否想过,只需一分钟的录音,就能让AI“学会”你的声音?无论是为自己的播客配…

作者头像 李华
网站建设 2026/1/31 8:42:43

基于单片机的远程烟雾报警系统

2 系统总体方案设计 通过上一章的火灾报警器的研究确定了设计火灾报警器的必要性,本章是火灾报警器的总体方案设计,确定了设计火灾报警器的硬件方案。 2.1 设计要求 熟悉51单片机的开发环境,用C语言编写程序; 能够自主设计基于单片机的最小系…

作者头像 李华
网站建设 2026/2/3 14:33:00

LCD1602字符显示原理:一文说清其内部结构与工作方式

LCD1602字符显示原理:从硬件到代码,彻底搞懂它的底层逻辑在嵌入式开发的早期阶段,你有没有遇到过这样的场景?MCU已经跑起来了,传感器数据也读到了,结果一到“把温度显示出来”这一步就卡住了——不是屏幕全…

作者头像 李华
网站建设 2026/2/3 12:15:26

无需大量算力!GPT-SoVITS轻量级训练方案出炉

无需大量算力!GPT-SoVITS轻量级训练方案出炉 在虚拟主播直播间里,一个声音与真人几乎无异的AI正在流畅播报商品信息;而在另一间康复中心,一位因疾病失去发声能力的患者正通过一段病前录音重建自己的“声音”——这一切背后&#x…

作者头像 李华
网站建设 2026/2/3 3:53:56

vue3中使用echarts实现3D饼图(组件封装)

前言 之前那篇文章已经实现3D饼图效果&#xff0c;这次只是在其基础上进行了简单的组件封装。详情请看vue3中用echarts达到3D饼图的实现 效果演示 添加无数据时占位盒子。&#xff08;自行根据ui设计更换样式&#xff09; 封装组件 Pie3D.vue组件 <template><divv-i…

作者头像 李华