最近我试了一下 AMD Radeon Cloud 里的vLLM-Qwen3,体验比传统的“自己开云主机、装驱动、下载模型、启动推理服务”轻很多。
如果只是想快速拿到一个能用的 Qwen3 API,不一定非要先折腾 ROCm、vLLM、模型下载和端口转发。AMD 云已经把这些东西封装成了一个可直接启动的 Model API 工作区:点一下 Launch,等实例启动完成,页面会直接给你一组 OpenAI-compatible endpoint。
这篇文章就完整走一遍:
- 注册 AMD AI 开发者计划,领取云 GPU 算力
- 在 Radeon Cloud 启动
vLLM-Qwen3 - 拿到 Base URL、Model、API Key
- 用
curl测试接口 - 用 Python 或任意 OpenAI 兼容客户端调用这个 Qwen3 API
注册 AMD 云使用这个链接:
https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIMoon
一、为什么这条路线更适合快速上手
过去我们想在云 GPU 上跑一个开源大模型,大致要做这些事:
- 申请云 GPU 实例
- 检查 ROCm / CUDA 环境
- 下载模型权重
- 启动 vLLM 或其他推理服务
- 暴露公网访问地址
- 再把地址配置到客户端里
这条路线当然更自由,适合做私有化部署、模型调优、复杂实验。
但如果你的目标只是“先有一个 Qwen3 API 可以调用”,那 AMD Radeon Cloud 的 Model APIs 模式更直接。它已经预置好了vLLM-Qwen3工作区,启动后会自动给你:
- Base URL
- Model ID
- API Key
curl快速测试命令
也就是说,你拿到的不是一个空白云主机,而是一个已经包装好的 OpenAI 兼容 API 服务。
二、先领取福利:GPU 算力和咖啡券
这次入口是 CSDN 官方给悟鸣 AI 粉丝的福利,没有复杂套路。用下面这个链接注册 AMD AI 开发者计划,按页面提示填写信息并完成授权,就可以领取两类福利:
- 200 小时 GPU 云端算力,后面可以用来启动 Qwen3 API、部署模型、跑推理实验
- 瑞幸咖啡券,注册后通常会在两个工作日内发到填写的邮箱里
注册链接:
https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIMoon
图1 CSDN 给悟鸣 AI 粉丝的福利入口:GPU 算力 + 咖啡券
填写信息时,手机号和邮箱要认真检查。手机号用于账号注册和登录,邮箱会影响咖啡券接收。如果你只是想领咖啡券,也可以先完成注册;如果你想真实使用 GPU 算力,继续往下看 Qwen3 API 的启动流程。
三、准备工作
开始前需要准备三个东西:
- 一个 AMD AI 开发者计划账号
- GitHub 或 ModelScope 账号,用于登录和授权
- 一个支持 OpenAI Compatible API 的客户端,比如 Cherry Studio、OpenCode,或者你自己的代码
进入活动页面后,按页面提示登录、填写信息、完成授权,并兑换云算力券。活动额度以页面实际显示为准。我这次操作时,页面提示“算力券将于 2 小时内到账”,所以如果兑换后暂时看不到额度,不用急,等一会儿再刷新 Radeon Cloud。
图2 AMD AI 开发者计划页面,点击“立即兑换”领取云算力券
四、注册并领取 AMD 云算力
进入 AMD AI 开发者计划页面后,基本流程是:
- 点击登录
- 选择 GitHub 或 ModelScope 登录
- 填写注册信息,确认手机号和邮箱无误
- 根据页面提示完成账号授权
- 回到活动页面,点击“立即兑换”
- 等待算力券到账
图3 确认兑换云算力券
图4 兑换完成后,页面提示算力券会在一段时间内到账
授权时会看到 GitHub 或 ModelScope 的权限确认页。普通个人使用场景下,不需要给组织仓库额外授权;按页面默认提示完成个人账号授权即可。
图5 使用 GitHub 登录时,需要授权 AMD Radeon Cloud 访问基础账号信息
这里要注意两点:
第一,授权不是在“偷拿你的代码”。它主要是为了确认账号身份、读取基础公开信息,并把 AMD Radeon Cloud 和你的账号绑定起来。
第二,算力券不是永远免费的无限资源。启动实例后会消耗额度,用完后记得关闭或删除实例。这个习惯很重要,后面我还会单独提醒。
注册和授权完成后,页面会跳转到 AMD 中国区开发者网站(https://developer.amd.com.cn/)。到这一步,福利领取流程就结束了。接下来我们进入 Radeon Cloud,真正把 GPU 算力用起来。
五、进入 Radeon Cloud,找到 vLLM-Qwen3
算力到账后,打开 Radeon Cloud:
https://radeon.anruicloud.com
登录后进入 Gallery 页面,可以看到上方有几个分类:
- Notebooks
- Gradio / Streamlit
- ComfyUI
- Model APIs
- Custom Images
这篇文章要用的是 Model APIs,所以点击Model APIs标签。
图6 进入 Radeon Cloud Gallery 后,切换到 Model APIs 分类
在列表里找到vLLM-Qwen3这个卡片。卡片上能看到类似这样的信息:
- 类型:Workspace
- 名称:
vLLM-Qwen3 - 镜像:
amd-oneclick-base:rocm7.2.1-py3.12-v20260416 - 标签:
vLLM API、vLLM demo
点击卡片上的Launch。
图7vLLM-Qwen3卡片会显示在 Model APIs 分类下
页面会弹出启动进度窗口,先是Allocating resources...,等进度走到 100% 后,会出现:
图8 启动过程中会先分配云端资源
Your API is ready Your instance is ready.到这里,Qwen3 API 已经启动好了。
六、复制 OpenAI 兼容 API 信息
实例启动成功后,弹窗里会显示一组 OpenAI-compatible endpoint 信息:
- Base URL
- Model
- API Key
- Quickstart curl
- Technical details
我这次看到的 Model 是:
qwen/qwen3-0.6BBase URL 类似:
https://radeon.anruicloud.com/spaces/u-xxxx-xxxx/8000/v1API Key 类似:
sk-xxxxxxxxxxxxxxxxxxxxxxxx这里一定要注意:API Key 不要截图公开,不要写进公开代码仓库,也不要发到博客正文里。你可以像我这样在文章里只写占位符。
图9 API 启动成功后,页面会给出 Base URL、Model 和 API Key。截图中敏感信息已遮挡
七、先用 curl 测试一下
最简单的验证方法是直接用curl请求/chat/completions。
把下面命令里的三个占位符换成你自己的值:
curl'<你的 Base URL>/chat/completions'\-H'Authorization: Bearer <你的 API Key>'\-H'Content-Type: application/json'\-d'{ "model": "qwen/qwen3-0.6B", "messages": [ { "role": "user", "content": "Hello" } ] }'如果你的 Base URL 已经以/v1结尾,那么最终请求地址就是:
https://.../8000/v1/chat/completions返回结果大概是一个标准 OpenAI Chat Completions 格式的 JSON:
{"object":"chat.completion","model":"qwen/qwen3-0.6B","choices":[{"message":{"role":"assistant","content":"Hello! How can I assist you today?"}}]}如果你看到返回内容里带有<think>...</think>,这是部分推理模型常见的输出形式,表示模型先写了一段思考过程,再给出最终回答。不同客户端对这类内容的展示方式不一样,有的会直接显示,有的会折叠。
图10 用curl调用/chat/completions,能返回标准 Chat Completions JSON
八、用 Python 调用 Qwen3 API
因为 AMD Radeon Cloud 给的是 OpenAI 兼容接口,所以我们可以直接用 OpenAI SDK。
先安装依赖:
pipinstallopenai然后写一个最小测试脚本:
importosfromopenaiimportOpenAI client=OpenAI(base_url=os.environ["AMD_QWEN_BASE_URL"],api_key=os.environ["AMD_QWEN_API_KEY"],)response=client.chat.completions.create(model="qwen/qwen3-0.6B",messages=[{"role":"user","content":"用三句话解释什么是 OpenAI 兼容 API。"}],)print(response.choices[0].message.content)运行前设置环境变量:
exportAMD_QWEN_BASE_URL='<你的 Base URL>'exportAMD_QWEN_API_KEY='<你的 API Key>'python test_qwen3.py这里的关键点是:base_url要填到/v1这一层,不要填到/chat/completions。SDK 会自己拼接后面的接口路径。
九、接入其他 OpenAI 兼容客户端
如果客户端要求填写的是“API Host”而不是完整 Base URL,要看它是否会自动补/v1。判断方法很简单:
- 如果客户端文档要求填 OpenAI base URL,通常可以填到
/v1 - 如果客户端会自动拼
/v1,就不要重复填/v1 - 最终请求路径只应该出现一次
/v1/chat/completions
重复写成/v1/v1/chat/completions,接口就会报错。
常见客户端里,一般只需要填三项:
| 字段 | 填写方式 |
|---|---|
| API Key | 填 AMD 页面给你的sk-... |
| Base URL / API Host / Endpoint | 填 AMD 页面给你的 Base URL |
| Model ID | 填qwen/qwen3-0.6B |
只要客户端支持 OpenAI Compatible API,基本都可以按这个思路接入。
十、常见问题和避坑
1. Launch 后一直在分配资源怎么办?
可以先点Continue in background,稍等一会儿再回来查看。如果长时间没有完成,通常是资源暂时紧张,刷新后重新启动一次即可。
2. 看不到 API Key 或 Base URL 怎么办?
确认你启动的是Model APIs里的vLLM-Qwen3,不是普通 Notebook 或 ComfyUI。只有 Model API 类型会直接展示 OpenAI-compatible endpoint。
3. curl 报 401 怎么办?
大概率是 API Key 没填对。检查:
Authorization是否写成Bearer <你的 API Key>- API Key 前后有没有多复制空格
- API Key 有没有被换行截断
4. curl 报 404 怎么办?
大概率是 URL 拼错了。检查最终地址是不是:
<Base URL>/chat/completions如果 Base URL 已经包含/v1,就不要再手动多加一个/v1。
5. 客户端里模型不可用怎么办?
检查 Model ID 是否完全一致:
qwen/qwen3-0.6B很多客户端要求模型名精确匹配,少一个斜杠、大小写不一致,都可能导致调用失败。
6. 用完要不要关闭实例?
要。
只要实例还在运行,就可能持续消耗算力额度。实验结束后,回到 Radeon Cloud,进入个人空间或实例管理页面,把不再使用的实例关闭或删除。尤其是临时测试 API 时,不要启动完就忘。
十一、这套方式适合谁?
我觉得它最适合三类人。
第一类是想快速体验开源模型 API 的开发者。你不需要先买显卡,也不需要折腾本地驱动,几分钟内就能拿到一个能跑的 Qwen3 API。
第二类是想测试 AI 应用接入能力的人。因为它是 OpenAI 兼容接口,所以你可以拿它测试自己的 Agent、聊天客户端、数据处理脚本、自动化工具。
第三类是想理解“模型服务化”流程的新手。你能直观看到一个模型从云 GPU 资源变成 API endpoint,再被客户端调用的完整链条。
它不一定适合长期生产环境,因为临时实例、免费额度、服务稳定性都要看平台规则。但作为学习、演示、原型验证,已经足够顺手。
总结
这次我们完成了一个很轻量的 Qwen3 API 使用流程:
- 用活动链接注册 AMD AI 开发者计划
- 完成 GitHub 或 ModelScope 授权
- 兑换云 GPU 算力券
- 在 Radeon Cloud 的 Model APIs 里启动
vLLM-Qwen3 - 拿到 OpenAI 兼容的 Base URL、Model、API Key
- 用
curl验证接口 - 根据需要把 Qwen3 接入其他 OpenAI 兼容客户端
相比手动部署 vLLM,这条路线最大的优点是省事:不下载模型、不配环境、不暴露端口,直接拿 API 用。
如果你只是想快速试试 Qwen3,或者想给自己的 AI 工具临时接一个开源模型后端,AMD Radeon Cloud 的vLLM-Qwen3值得一试。