TensorRT-LLM部署Qwen3-14B-平芜编程栈

TensorRT-LLM部署

TensorRT-LLM 官方文档地址：https://nvidia.github.io/TensorRT-LLM/overview.html

下载相关的镜像

Nvidia官方镜像网址：https://catalog.ngc.nvidia.com/search?filters=resourceType%7CContainer%7Ccontainer&query=tensorrt-llm

#下载Nvidia tensorRT-LLM 镜像， docker pull nvcr.io/nvidia/tensorrt-llm/release:1.2.0rc4

注意：release版本镜像并没有将模型转换checkpoint的依赖环境，没有tensorrt-llm ,需要手动安装，或者找其他版本的镜像（本人测试了 devel 版本（nvcr.io/nvidia/tensorrt-llm/devel:1.2.0rc4）仍然没有，网络建议的build版本、engine版本没有找到，只能自己安装）

进入镜像，安装相关的的依赖：

pip install tensorrt-llm pip install transformers accelerate sentencepiece safetensors huggingface_hu #如果你是 Qwen3 系列，还必须安装： pip install tiktoken pip install einops #如果你是 LLaMA： pip install protobuf #如果你用 chatml / tokenizer 的特殊格式： pip install sentencepiece

准备基础模型

Qwen3-14B: 官方镜像即可

#存放目录： /mnt/data/models/Qwen/Qwen3-14B

下载github转换脚本文件

TensorRT-LLMgithub地址： https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/models/core/qwen/convert_checkpoint.py

#存放文件目录： /mnt/data/models/tensor/convert_checkpoint.py

转换checkpoint：

python convert_checkpoint.py \ --model_dir /mnt/data/models/Qwen/Qwen3-14B \ --output_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/fp16 \ --dtype fp16

转换模型checkpoint不需要GPU资源，但是当前只使用一个镜像自己完成所有的过程，则需要GPU资源
原则上不需要 GPU
仅涉及权重 reshape/分片
仅涉及 JSON 结构、配置生成
不包含算子编译

构建engine文件：

trtllm-build \ --checkpoint_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/float16 \ --output_dir /mnt/data/models/tensor/engine/qwen3-14b-engine \ --gemm_plugin float16 \ --max_batch_size 8 \ --max_input_len 2048 \ --max_seq_len 4096 \ --kv_cache_type paged \ --workers 16 \ --log_level info

注意：
engine构建是需要GPU资源的，构建engine的GPU资源需要和部实际部署的GPU资源保持一致，
例如：部署使用单卡L20，则构建的engine必须使用相同的GPU资源，型号数量要相同
此步骤需要：
CUDA kernel 生成
TensorRT builder 编译
GPU 上的 profile 校准
Plugin 编译优化
必须使用 GPU
TensorRT engine 构建只能在 GPU 上完成
并且必须使用目标 GPU（或者至少与目标 GPU 架构兼容）
为什么需要 GPU？
TensorRT 需要 GPU 的Compute Capability来生成最优 kernel
不同显卡（A100 / H100 / L20 / RTX4090）生成的 Engine 不能通用！

部署engine：

trtllm-serve serve /mnt/data/models/tensor/engine/qwen3-14b-engine \ --tokenizer /mnt/data/models/Qwen/Qwen3-14B \ --host 0.0.0.0 \ --port 8000 \ --log_level info \ --backend tensorrt \ --tp_size 1 \ --max_batch_size 8 \ --max_seq_len 4096

Keil MDK下载：工业控制项目开发完整指南

Keil MDK 下载与工业控制开发实战：从零搭建高可靠嵌入式系统在工业自动化现场，你是否曾遇到这样的场景？ PLC 控制柜里，MCU 主控板突然死机；电机驱动程序跑飞，导致产线停摆；新同事花了一周才把…

李华

从零开始训练语音模型：GPT-SoVITS全流程操作指南

从零开始训练语音模型：GPT-SoVITS全流程操作指南在短视频、虚拟主播和有声内容爆发的今天，个性化语音合成早已不再是科技巨头的专属能力。你是否想过，只需一分钟的录音，就能让AI“学会”你的声音？无论是为自己的播客配…

李华

基于单片机的远程烟雾报警系统

2 系统总体方案设计通过上一章的火灾报警器的研究确定了设计火灾报警器的必要性，本章是火灾报警器的总体方案设计，确定了设计火灾报警器的硬件方案。 2.1 设计要求熟悉51单片机的开发环境，用C语言编写程序; 能够自主设计基于单片机的最小系…

李华

LCD1602字符显示原理：一文说清其内部结构与工作方式

LCD1602字符显示原理：从硬件到代码，彻底搞懂它的底层逻辑在嵌入式开发的早期阶段，你有没有遇到过这样的场景？MCU已经跑起来了，传感器数据也读到了，结果一到“把温度显示出来”这一步就卡住了——不是屏幕全…

李华

无需大量算力！GPT-SoVITS轻量级训练方案出炉

无需大量算力！GPT-SoVITS轻量级训练方案出炉在虚拟主播直播间里，一个声音与真人几乎无异的AI正在流畅播报商品信息；而在另一间康复中心，一位因疾病失去发声能力的患者正通过一段病前录音重建自己的“声音”——这一切背后&#x…

李华

vue3中使用echarts实现3D饼图（组件封装）

前言之前那篇文章已经实现3D饼图效果，这次只是在其基础上进行了简单的组件封装。详情请看vue3中用echarts达到3D饼图的实现效果演示添加无数据时占位盒子。（自行根据ui设计更换样式） 封装组件 Pie3D.vue组件 <template><divv-i…

李华