news 2026/4/15 8:52:30

打造私人定制开发利器:Qwen Code、vLLM与Qwen3-Coder强强联合!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
打造私人定制开发利器:Qwen Code、vLLM与Qwen3-Coder强强联合!

一、Qwen Code

Qwen Code是一款类似于Claude CodeAI编程助手,由阿里通义千问团队推出,一定程度上可以作为Claude Code的平替工具,本文通过Qwen Code+vLLM+Qwen3-Coder-30B-A3B-Instruct构建纯内网下私服级开发辅助引擎,主要流程如下所示:

实验主要依赖的版本如下:

torch==2.6.0transformers==4.51.3modelscope==1.23.1vllm==0.8.4

二、vLLM 部署 Qwen3-Coder-30B-A3B-Instruct

使用modelscope下载Qwen3-Coder-30B-A3B-Instruct模型到本地:

modelscope download --model="Qwen3-Coder-30B-A3B-Instruct" --local_dir Qwen3-Coder-30B-A3B-Instruct

然后使用vLLM读取模型启动API服务。

export CUDA_VISIBLE_DEVICES=0,1vllm serve "Qwen3-Coder-30B-A3B-Instruct" \ --host 0.0.0.0 \ --port 8060 \ --dtype bfloat16 \ --tensor-parallel-size 2 \ --cpu-offload-gb 0 \ --gpu-memory-utilization 0.8 \ --max-model-len 65536 \ --api-key token-abc123 \ --enable-prefix-caching \ --enable-auto-tool-choice \ --tool-call-parser hermes \ --trust-remote-code

关键参数说明:

  • export CUDA_VISIBLE_DEVICES=0,1:指定所使用的GPU
  • dtype: 数据类型,其中bfloat1616位浮点数,适合NVIDIA A100等设备。
  • tensor-parallel-sizeTensor并行的数量,当多GPU分布式推理时使用,建议和GPU的数量一致。
  • cpu-offload-gb:允许将部分模型权重或中间结果卸载到CPU的内存中,单位为GB,模拟GPU内存扩展,如果部署的模型大于了显存大小可以设置该参数,但是推理速度会大大下降。
  • gpu-memory-utilization:设置GPU内存利用率的上限。
  • max-model-len:允许模型最大处理的Token数,该参数越大占用显存越大。
  • enable-prefix-caching:启用前缀缓存减少重复计算。
  • enable-auto-tool-choice:启用 function call 模式。
  • tool-call-parser hermes:设置 function call 的解析器。

显存占用情况:

如果启动显存不足,可适当调整gpu-memory-utilizationmax-model-len参数,或通过cpu-offload-gb将部分模型权重卸载到内存中(速度会大大折扣)。

启动成功后,可通过/v1/models接口可查看模型列表:

curl http://127.0.0.1:8060/v1/models -H "Authorization: Bearer token-abc123" ```![](http://cdn.zhipoai.cn/a6f6beab.jpg) 测试`API`交互: ```plaintext curl http://127.0.0.1:8060/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer token-abc123" \ -d '{ "model": "Qwen3-Coder-30B-A3B-Instruct", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你是谁"} ] }' ```![](http://cdn.zhipoai.cn/06c56868.jpg) 三、安装和配置 Qwen Code ----------------- 首先安装 Qwen Code 组件,这里采用 npm: ```plaintext npm install -g @qwen-code/qwen-code@latest ```![](http://cdn.zhipoai.cn/4b4d3ee7.jpg) 安装好后,可以输入 `qwen` 进入窗口: ![](http://cdn.zhipoai.cn/d46e8335.jpg) 配置上面部署的私有模型: 在项目目录下创建 `.env` 文件, 内容如下所示: ```plaintext OPENAI_BASE_URL=http://127.0.0.1:8060/v1/OPENAI_API_KEY=token-abc123OPENAI_MODEL=Qwen3-Coder-30B-A3B-Instruct

然后在.env文件同级的目录下唤醒qwen:

i进入插入模式,然后输入/auth切换认证方式,选择OpenAI,确认信息后即配置成功:

四、 Vibe Coding 测试

这里简单测试下 Vibe Coding ,开发一个H5小游戏和一个前端页面。

4.1 测试 h5 小游戏开发

输入指令:创建一个H5五子棋小游戏

默认情况下,对文件的修改都要用户授权,这里可以先选择是,总是允许

最终运行使用效果:

4.2 测试 前端页面开发

输入指令:实现一个科技感十足的数据分析洞察的前端展示页面,使用H5绘制,需要包含炫酷的图表和动画

最终运行使用效果:

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 18:19:10

GLM-TTS随机种子固定技巧:确保结果可复现的方法

GLM-TTS随机种子固定技巧:确保结果可复现的方法 在语音合成系统日益深入生产环境的今天,一个看似微小却影响深远的问题正困扰着许多开发者和产品团队:为什么同样的输入,生成的语音听起来总有些“不一样”? 这种差异可能…

作者头像 李华
网站建设 2026/4/8 13:45:46

线上CPU 100%怎么排查

服务器CPU突然飙高,怎么快速定位到具体代码? 其实有套路可循,按这个流程走基本都能搞定。 先看是哪个进程 上去第一件事,top看一眼: top输出里重点看这行: %Cpu(s): 85.2 us, 3.1 sy, 0.0 ni, 10.5 id, 0.0 wa, 0.0 hi, 1.2 sius高说明是用户程序在吃CPU,wa高…

作者头像 李华
网站建设 2026/4/13 18:56:22

Redis分布式锁从入门到精通:PHP工程师必备的8个核心技术要点

第一章:Redis分布式锁的核心概念与应用场景在分布式系统中,多个服务实例可能同时访问共享资源,为避免数据竞争和不一致问题,需要一种跨进程的协调机制。Redis凭借其高性能和原子操作特性,成为实现分布式锁的常用工具。…

作者头像 李华
网站建设 2026/4/13 22:54:47

【行业专家揭秘】:企业级PHP物联网数据上报平台架构设计全流程

第一章:企业级PHP物联网数据上报平台概述在现代物联网(IoT)生态系统中,海量设备持续产生实时数据,如何高效、安全地收集并处理这些数据成为企业数字化转型的关键。基于PHP构建的企业级物联网数据上报平台,凭…

作者头像 李华
网站建设 2026/4/11 1:29:08

百考通AI:您的智能答辩PPT专家,让毕业季的紧张与焦虑一扫而空

对于每一位即将迎来毕业答辩的学子而言,“答辩PPT”是决定最终成败的关键一环。它不仅是您数年学习成果的集中展示,更是您逻辑思维、表达能力和专业素养的终极考验。一份结构清晰、重点突出、视觉美观的PPT,能极大地提升答辩表现,…

作者头像 李华
网站建设 2026/4/2 7:01:53

GLM-TTS支持中英混合语音合成,打造个性化TTS应用

GLM-TTS:如何用一段人声打造会说中英文的“数字分身”? 在智能语音助手还在用千篇一律的“电子腔”播报天气时,你有没有想过——让Siri用你朋友的声音读一封英文邮件?或者让你的有声书主播在讲中文故事时,自然地念出一…

作者头像 李华