Radeon 显卡加速开启指南，别让大模型跑在 CPU 上-平芜编程栈

为什么你的大模型跑得像 PPT？

最近不少朋友反馈，明明入手了搭载 Strix Halo 架构的新本，配置了 32GB 甚至 64GB 大内存，兴致勃勃地部署了本地大模型，结果生成速度却慢得让人怀疑人生。看着屏幕上一个个字往外“挤”，完全没有了宣传中那种丝滑流畅的体验。这时候先别急着怪硬件不行，绝大多数情况下，问题出在加速没开启。

很多用户以为装好软件、拉取模型就能自动享受 Radeon GPU 的算力红利，但实际上，如果配置不当，模型很可能依然在纯 CPU 模式下“裸奔”。CPU 虽然通用性强，但在大模型推理这种高并发矩阵运算面前，效率远不如 GPU。今天我们就来当一次“侦探”，手把手教你排查为何加速未生效，并把这些被浪费的性能重新找回来。

一眼识破：CPU 裸奔的典型特征

在深入调试之前，我们先通过现象来快速判断当前状态。如果你的运行体验符合以下特征，那么大概率是 GPU 加速没有正常工作：

生成速度极低：运行 7B 或 14B 量化模型时，速度只有 3-8 tokens/s，甚至更低。而在 Radeon GPU 正常加速下，7B 模型通常能达到 45-50 tokens/s，14B 也能维持在 25-30 tokens/s。
风扇狂转但显卡“冷静”：你听到笔记本风扇呼呼作响，CPU 占用率飙升到 100%，但在监控软件中，Radeon GPU 的 3D 或计算引擎占用率却几乎是一条直线，毫无波澜。
首字延迟过高：按下回车后，需要等待 1.5 秒甚至更久才能看到第一个字输出。相比之下，GPU 加速后的首字延迟（TTFT）通常在 0.3 秒以内，几乎是即时响应。

一旦出现上述情况，请立即停止盲目测试，转而检查你的软件配置和系统监控，因为此时你的强大独显正在“摸鱼”，所有重担都压在了 CPU 身上。

实战排查：任务管理器与 LM Studio 监控

要确认问题所在，最直观的方法就是查看硬件负载。不同的工具提供了不同维度的监控视角。

Windows 任务管理器自查

对于使用 Ollama 或后台服务的用户，Windows 自带的任务管理器是最快的排查工具。

启动你的大模型服务并开始对话。
打开任务管理器（Ctrl + Shift + Esc），切换到性能选项卡。
观察GPU 0 (AMD Radeon Graphics)的图表。重点查看"3D"或"Compute_0"（计算）引擎的占用率。
- 正常状态：在生成文本时，对应的引擎占用率应有明显波动（例如 20%-80%），且显存占用会显著增加（取决于模型大小）。
- 异常状态：如果 GPU 占用率始终接近 0%，而CPU的所有核心占用率都飙红，那就实锤了——模型正跑在 CPU 上。

LM Studio 可视化监控

如果你使用的是 LM Studio，排查过程会更加友好，因为它内置了详细的硬件负载面板。

在加载模型后，注意界面右侧或底部的状态栏：

查看GPU Offload指示器。如果显示为0/xx layers或者提示Running on CPU，说明加速未开启。
观察实时的VRAM Usage（显存使用量）。如果显存占用几乎没有变化，而系统内存（RAM）占用激增，说明模型权重被加载到了慢速的系统内存中，而非显存。
LM Studio 的日志窗口也会明确打印出当前使用的后端设备。如果看到ggml_backend_cpu字样，那就是在纯 CPU 运行；若看到ggml_backend_cuda(兼容层) 或Vulkan/ROCm相关标识，则说明加速已介入。

常见配置陷阱与修正方案

找到了病灶，接下来就是对症下药。以下是几个最容易导致加速失效的配置误区，按发生频率排序。

陷阱一：LM Studio 中忘记拉动"GPU Offload"滑块

这是新手最容易犯的错误。LM Studio 为了兼容性，默认有时不会自动将全部层级卸载到 GPU。

修正方法：

在 LM Studio 右侧设置面板中，找到GPU Offload选项。
你会看到一个滑块，旁边标注着类似0/33 Layers的数字。
直接将滑块拉到最右边（Max），确保数字变为xx/xx Layers（即全量卸载）。
点击Load Model重新加载模型。此时再观察显存占用，应该会瞬间上升几个 GB，生成速度也会立竿见影地提升。

陷阱二：Ollama 环境变量缺失或冲突

虽然新版 Ollama 对 Strix Halo 的识别已经非常智能，但在某些特定系统环境或旧版本中，可能需要手动指定后端。

修正方法：在启动 Ollama serve 之前，尝试设置环境变量以强制启用 GPU 支持。在 PowerShell 中执行：

$env:HSA_OVERRIDE_GFX_VERSION = "11.0.0" $env:OLLAMA_DEBUG = "1" ollama serve

设置OLLAMA_DEBUG=1后，观察控制台输出日志。如果看到类似offloading to GPU的信息，说明配置成功；如果依然显示using CPU，则可能需要检查显卡驱动是否为最新的 Adrenalin 版本，确保 ROCm 兼容层已正确安装。

陷阱三：显存预估不足导致自动降级

部分用户在运行 32B 等大参数模型时，发现速度依然很慢。这可能是因为模型总量超过了可用显存，系统被迫将部分层级交换到系统内存，导致带宽瓶颈。

修正策略：

检查显存余量：确保没有其他高显存应用（如大型游戏、渲染软件）在后台运行。
调整上下文长度：在 LM Studio 中适当减小Context Length（例如从 8192 降至 4096），可以腾出更多显存用于存放模型权重，从而增加 GPU 卸载的层数。
选择合适量化版本：如果显存确实紧张，尝试使用Q4_K_M或Q5_K_M等量化版本，它们在精度损失极小的情况下能大幅降低显存需求，让更多层级留在 GPU 上。