news 2026/2/9 13:31:11

vLLM推理引擎教程6-Nsight Systems性能分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
vLLM推理引擎教程6-Nsight Systems性能分析

1、概念

我们需要通过推理引擎极致地优化推理的性能,所以必不可少需要一个性能分析工具。

本文介绍Nvidia Nsight Systems,它时一个低开销的系统级性能分析器。它的核心设计目标是回答一个关键问题:“我的应用程序在运行过程中,时间到底花在了哪里”。

Nsight Systems专注于应用程序的行为,它通过收集代码在CPU和GPU上的执行细节,生成一个跨整个系统的时间线视图,让开发者能够清晰地看到线程活动、GPU内核执行、内存拷贝、API调用等事件之间地因果关系和时序关系。

2、安装

目标:在linux服务器上跟踪应用程序的执行,在windows上进行可视化分析。

下载地址:https://developer.nvidia.com/nsight-systems/get-started

Windows安装:

linux安装:

Linux安装命令:

sudo rpm -ivh NsightSystems-linux-cli-public-2025.6.1.190-3689520.rpm

Linux端验证成功:

nsys --version

返回结果:

3、Python版本GPU性能测试

python测试代码:

import torch import time print("Creating tensors on GPU...") x = torch.randn(10000, 10000).cuda() y = torch.randn(10000, 10000).cuda() print("Performing matrix multiplication...") start = time.time() z = torch.mm(x, y) torch.cuda.synchronize() end = time.time() print(f"Done! Time: {end - start:.2f} seconds") print(f"Result shape: {z.shape}")

执行命令日志:

(vllm_python312) [work@iZuf6hp1dkg31metmko4pbZ test]$ nsys profile --trace=cuda,nvtx,osrt --output=matrix_mult_trace --force-overwrite true python test_gpu.py Collecting data... Creating tensors on GPU... Performing matrix multiplication... Done! Time: 0.10 seconds Result shape: torch.Size([10000, 10000]) Generating '/tmp/nsys-report-1078.qdstrm' [1/1] [========================100%] matrix_mult_trace.nsys-rep Generated: /data/xiehao/workspace/code/test/matrix_mult_trace.nsys-rep

将nsys-rep文件在Windows端通过GUI打开:

上面的python代码涉及GPU操作的有3部分:

- x复制到GPU,32ms

- y复制到GPU,31ms

- mm操作,47ms

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/9 4:27:45

数字人平台选型指南:四大维度全面解析

一、测评背景与方法论数字人技术已从早期探索阶段迈向规模化落地。行业数据显示,2025 年生成式 AI 产生的数据占比将达到全球数据总量的 10%,人工智能整体产业规模突破 3000 亿美元。在内容生产、营销推广、数字化运营等场景迅速增长的背景下&#xff0c…

作者头像 李华
网站建设 2026/2/4 10:21:44

SGMG-09A6W-YG1伺服电机

SGMG-09A6W-YG1 伺服电机SGMG-09A6W-YG1 是一款高性能工业伺服电机,适用于精密控制场合,如数控机床、工业机器人、自动化生产线及其他高精度机械设备。主要特点:高精度反馈:配备编码器,实现位置、速度和方向的精确控制…

作者头像 李华
网站建设 2026/2/10 5:39:08

GPT-5.2遭全网群嘲,原因竟然是不够人性化!

日前,OpenAI 十周年的日子里,他们如约推出了新的旗舰模型 GPT-5.2。 官方宣传词是「迄今为止在专业知识工作上最强大的模型」,各项基准测试成绩也确实看起来不错。 但就在发布后的几个小时内,整个网络舆论急速反转。 社交媒体上…

作者头像 李华
网站建设 2026/2/9 11:29:42

从爬取到分析:使用 Pandas 处理头条问答数据

在当下的内容生态中,头条问答汇聚了海量用户生成的问答数据,这些数据涵盖了用户的兴趣偏好、问题诉求、内容互动等多维度信息,是洞察用户行为、挖掘内容价值的重要资源。而 Pandas 作为 Python 生态中核心的数据处理库,凭借其高效…

作者头像 李华
网站建设 2026/2/8 19:03:46

Ubuntu下使用conda安装TensorFlow-GPU实战指南

Ubuntu下使用conda安装TensorFlow-GPU实战指南 在实验室部署深度学习项目时,最让人抓狂的不是模型调不通,而是“代码没问题,但GPU就是用不上”。明明装了 tensorflow-gpu,运行时却只看到CPU默默工作;nvidia-smi 显示驱…

作者头像 李华