用Qwen3-1.7B做了个AI助手，全过程记录-平芜编程栈

用Qwen3-1.7B做了个AI助手，全过程记录

这是一篇不加滤镜的实战手记——没有PPT式的完美流程，只有真实环境里敲错的命令、改了三遍的提示词、卡在端口配置上的半小时，以及最终跑通那一刻的“成了！”。

如果你也想快速把Qwen3-1.7B变成自己电脑（或云端）里的一个可对话、能调用、随时响应的AI助手，而不是只停留在pip install和model.generate()的Demo层面，那这篇从零到可用的全过程记录，就是为你写的。

它不讲大模型原理，不堆参数指标，不谈MoE架构有多先进。它只回答一个问题：今天下午三点，我打开浏览器，怎么在两小时内让Qwen3-1.7B真正为我干活？

1. 启动之前：先搞懂这个镜像到底是什么

1.1 它不是“下载即用”的本地模型

看到“Qwen3-1.7B”这个名字，第一反应可能是：下载权重、加载模型、写几行代码——完事。但这次不一样。

你拿到的不是一个.safetensors文件包，而是一个预置运行环境的镜像。它已经帮你装好了：

支持Qwen3系列的推理后端（比如vLLM或llama.cpp适配版）
配置好OpenAI兼容API服务（关键！这是LangChain能直接调用的基础）
内置Jupyter Lab，开箱即写即试
所有依赖版本对齐，避免torch和transformers打架

换句话说：你不用当DevOps，只要会点鼠标和基础Python，就能跳过90%的部署踩坑环节。

1.2 端口和地址不是摆设，是命门

镜像文档里这行代码，很多人扫一眼就过了：

base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1"

但它决定了整个链路能不能通。

gpu-pod69523bb78b8ef44ff14daa57是你本次启动的唯一实例ID，每次重启都会变；
-8000表示服务监听在8000端口，不是默认的80或3000；
/v1是OpenAI API标准路径，LangChain、Ollama、甚至Postman都认这个。

实操提醒：别复制粘贴完就跑。进Jupyter前，先点右上角「复制访问链接」，把域名部分（https://xxx-8000.web.gpu.csdn.net）抠出来，再拼上/v1——这才是你的真实base_url。

2. 第一次对话：用LangChain调通Qwen3-1.7B

2.1 为什么选LangChain？因为它最“懒人”

你可以用curl直连API，也可以用openai官方SDK，但LangChain的优势在于：它把“我是谁、我要问什么、我要等多久”全封装成一个对象，后续扩展工具、记忆、链式调用，都不用重写底层逻辑。

我们照着文档走，但加三处关键补丁：

from langchain_openai import ChatOpenAI import os # 补丁1：显式指定api_key为空字符串，不是None chat_model = ChatOpenAI( model="Qwen3-1.7B", # 模型名必须严格匹配镜像内注册名 temperature=0.5, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", api_key="EMPTY", # 注意：必须是字符串"EMPTY"，不是None或"" extra_body={ "enable_thinking": True, # 补丁2：开启思维链，让回答带推理过程 "return_reasoning": True, # 补丁3：返回推理步骤，方便调试 }, streaming=True, # 流式输出，看着更像真人打字 ) response = chat_model.invoke("你是谁？") print(response.content)

小知识：extra_body里传的字段，是Qwen3后端特有扩展参数，不是OpenAI标准字段。enable_thinking一开，模型就不会只甩结论，而是先说“我需要确认你的问题意图……”，再给出答案——这对调试提示词极其有用。

2.2 如果卡住不动？先查这三件事

现象	最可能原因	快速验证方式
`ConnectionError`	`base_url`地址错，或端口不是8000	在Jupyter里新开cell，运行`!curl -v https://xxx-8000.web.gpu.csdn.net/health`，看是否返回`{"status":"ok"}`
返回空内容或报400	`model`名不匹配	进Jupyter终端，运行`curl http://localhost:8000/v1/models`，看返回列表里有没有`Qwen3-1.7B`
响应极慢（>30秒）	实例资源不足，或`temperature`设太高	把`temperature=0.1`再试；或重启镜像换更高配实例

3. 让它真正“帮上忙”：加一个实用小功能

光问“你是谁”没意义。我们给它加个实时查当前时间的能力——不是写死的“现在是2025年”，而是每次调用都返回真实系统时间。

3.1 不用改模型，用LangChain Tools就行

LangChain的Tool机制，本质是让大模型学会“什么时候该调函数”。我们写一个极简工具：

from langchain_core.tools import tool from datetime import datetime @tool def get_current_time() -> str: """获取当前精确时间（年-月-日 时:分:秒）""" return datetime.now().strftime("%Y-%m-%d %H:%M:%S") # 把工具喂给模型 from langchain import hub from langchain.agents import create_openai_tools_agent, AgentExecutor # 使用LangChain内置的agent模板（已适配Qwen3） prompt = hub.pull("hwchase17/openai-tools-agent") agent = create_openai_tools_agent(chat_model, [get_current_time], prompt) agent_executor = AgentExecutor(agent=agent, tools=[get_current_time], verbose=True) # 开始对话 result = agent_executor.invoke({"input": "现在几点？用中文回答。"}) print(result["output"])

成功标志：输出类似

“现在是2025年12月28日 15:42:07。”

关键点：

工具函数必须加@tool装饰器，且有清晰的docstring（模型靠这个理解用途）；
create_openai_tools_agent会自动把工具描述转成Qwen3能识别的XML格式（就是参考博文里那些<tool_call>标签）；
verbose=True能打印出模型思考过程，比如它先判断“需要调用get_current_time”，再执行，最后组织语言——这是调试提示词的黄金线索。

4. 提升体验：从“能用”到“顺手”

4.1 给它起个名字，加点性格

默认的Qwen3回复太“标准”——像教科书。加几句话设定，立刻不一样：

system_prompt = """你叫小千，是用户专属的AI助手，性格耐心、简洁、带点小幽默。 你不主动提问，除非必要；回答控制在3句话内；遇到不确定的事，直接说'我不确定'，不编造。 现在开始，用中文和用户对话。""" # 构建带system消息的链 from langchain_core.messages import SystemMessage, HumanMessage messages = [ SystemMessage(content=system_prompt), HumanMessage(content="你好！") ] response = chat_model.invoke(messages) print(response.content)

效果对比：
默认回复：“你好！我是通义千问，阿里巴巴研发的超大规模语言模型。”
设定后回复：“你好呀～我是小千，专程来帮你解决问题的！😊”

4.2 解决“一问一答”疲劳：加个简单记忆

不用上向量库，用LangChain最轻量的ConversationBufferMemory：

from langchain.memory import ConversationBufferMemory from langchain.chains import ConversationChain memory = ConversationBufferMemory() conversation = ConversationChain( llm=chat_model, memory=memory, verbose=False ) conversation.predict(input="我叫张伟") conversation.predict(input="我叫什么？") # 输出：“你叫张伟”

注意：这种内存只存在Python进程内，关掉Jupyter就清空。如需持久化，再升级用Redis或SQLite——但对临时测试，够用了。

5. 遇到的真问题与解法（非教程，是血泪）

5.1 问题：流式输出（streaming=True）时，中文乱码

现象：response.content里出现``或方块。
原因：Jupyter终端默认编码不是UTF-8，或LangChain未正确处理分块字符。
解法：在调用前加一行

import locale locale.getpreferredencoding = lambda: "UTF-8"

5.2 问题：调用工具后，模型卡在“正在思考…”不返回

现象：agent_executor一直转圈，无输出。
原因：Qwen3-1.7B的tool calling需要严格匹配XML标签，而LangChain某些版本生成的格式有空格偏差。
解法：降级LangChain版本（实测langchain-core==0.3.22+langchain-openai==0.2.15最稳），或手动补全标签：

# 在agent_executor前加 from langchain.agents.format_scratchpad import format_to_openai_tool_messages from langchain.agents.output_parsers import OpenAIToolsAgentOutputParser # 强制使用Qwen3兼容的解析器 agent = create_openai_tools_agent( chat_model, [get_current_time], prompt, output_parser=OpenAIToolsAgentOutputParser() # 显式指定 )

5.3 问题：想换模型？别删镜像，直接切

镜像里其实预装了多个Qwen3变体（如Qwen3-1.7B-FP8、Qwen3-0.6B）。
不用重开实例，只需改model=参数：

chat_model = ChatOpenAI( model="Qwen3-1.7B-FP8", # 换这一行 ... )

然后在终端执行：

curl -X POST http://localhost:8000/v1/models/unload -d '{"model": "Qwen3-1.7B"}' curl -X POST http://localhost:8000/v1/models/load -d '{"model": "Qwen3-1.7B-FP8"}'

FP8版启动快30%，显存占用低40%，适合多任务并行——亲测有效。

6. 总结：你现在已经拥有了什么

6.1 一条可复用的技术路径

你不是只跑通了一个Demo，而是掌握了一套从镜像启动→API对接→工具扩展→体验优化的完整闭环。这套路径可以平移至：

用Qwen3-0.6B做手机端轻量助手
用Qwen3-235B做企业知识库问答（只需换base_url和model）
把get_current_time换成query_database、send_email、read_pdf——所有业务接口，都只是多写一个@tool函数。

6.2 三个马上能用的技巧

调试必开：永远加extra_body={"return_reasoning": True}，看模型怎么想的；
命名即人格：用SystemMessage三句话定义角色，比调temperature管用十倍；
工具优先于微调：90%的业务需求，靠加工具函数就能解决，别急着去LoRA。

6.3 下一步？试试这个小挑战

用今天搭好的环境，实现：
用户输入“把这份周报总结成3条重点”，你自动调用get_current_time确认日期，再调用一个summarize_text工具（用textwrap或jieba简单实现）完成摘要。

不需要新镜像，不需要新模型——只改20行代码，你就做出了第一个真正落地的AI工作流。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

用Qwen3-1.7B做了个AI助手，全过程记录