用Qwen3-1.7B实现角色扮演，LangChain调用真香-平芜编程栈

用Qwen3-1.7B实现角色扮演，LangChain调用真香

1. 为什么小模型也能玩转角色扮演？

你有没有试过让AI“变成”另一个人？不是简单回答问题，而是真正代入身份、语气、情绪，甚至带点小脾气和撒娇感——比如一只傲娇猫娘、一位毒舌侦探、一个热血中二少年。很多人以为这非得靠20B以上的大模型才能做到，但其实，Qwen3-1.7B这个仅17亿参数的轻量级模型，已经足够支撑高质量的角色扮演体验。

它不是靠堆参数硬撑，而是得益于Qwen3系列全新的训练范式：更扎实的指令遵循能力、更强的多轮对话记忆、原生支持思维链（reasoning）与角色一致性建模。更重要的是，它在保持小体积的同时，对中文语境下的情感表达、口语节奏、人设细节拿捏得非常自然。

而LangChain，恰恰是把这种能力“拧成一股绳”的最佳工具——不用写一堆胶水代码，不用手动拼接system prompt，也不用自己管理历史消息。一句话就能启动一个有性格、有记忆、会思考的角色。

这篇文章不讲微调、不跑训练、不碰GPU显存焦虑。我们只做一件事：在Jupyter里点开镜像，5分钟内，用LangChain调起Qwen3-1.7B，让它立刻变成你想聊的那个人。

2. 镜像启动与环境准备

2.1 一键进入Jupyter工作台

CSDN星图镜像广场提供的Qwen3-1.7B镜像已预装全部依赖，包括langchain-core、langchain-openai、transformers、torch等核心库，并配置好本地API服务端口。你只需：

在镜像详情页点击【立即启动】
等待状态变为“运行中”
点击【打开Jupyter】按钮，自动跳转至https://xxx.web.gpu.csdn.net/tree界面

小贴士：镜像默认监听8000端口，所有API请求都走这个地址，无需额外配置反向代理或端口映射。

2.2 确认服务可用性（可选）

首次使用时，建议先验证后端服务是否就绪。在Jupyter新建一个Python Notebook，运行以下代码：

import requests url = "https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1/models" headers = {"Authorization": "Bearer EMPTY"} try: resp = requests.get(url, headers=headers, timeout=5) if resp.status_code == 200: print(" Qwen3-1.7B服务已就绪") print("可用模型列表：", resp.json().get("data", [])) else: print(f" 服务异常，HTTP {resp.status_code}") except Exception as e: print(" 请求失败，请检查镜像是否运行正常：", str(e))

如果看到Qwen3-1.7B服务已就绪，说明一切准备就绪，可以直奔核心环节。

3. LangChain调用Qwen3-1.7B：三步构建角色

3.1 初始化ChatModel：告别繁琐配置

LangChain官方推荐使用ChatOpenAI兼容接口对接各类开源大模型API服务。Qwen3-1.7B镜像完全遵循OpenAI v1标准协议，因此我们只需传入正确的base_url和model名即可，无需修改任何源码，也无需安装私有适配器。

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="Qwen3-1.7B", temperature=0.6, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", api_key="EMPTY", extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, )

注意几个关键点：

api_key="EMPTY"是镜像设定的固定值，不是占位符，必须原样填写；
extra_body中的enable_thinking和return_reasoning是Qwen3专属开关，开启后模型会在输出前生成内部推理过程（以<think>标签包裹），大幅提升角色逻辑连贯性；
streaming=True启用流式响应，适合角色扮演场景——你能实时看到AI“边想边说”，增强沉浸感。

3.2 定义角色：用SystemMessage锚定人设

角色扮演的核心，从来不是模型多强，而是提示词是否精准地框定了行为边界。LangChain的SystemMessage就是最干净的锚点。

我们以“古风剑客”为例，写一段既简洁又有张力的设定：

from langchain_core.messages import SystemMessage, HumanMessage system_prompt = SystemMessage( content="""你是一位行走江湖二十年的孤傲剑客，腰悬青锋，不喜言笑。 - 说话简练，多用四字短语与文言词汇，如「且慢」「无妨」「此剑饮血」 - 情绪内敛，但遇不平事必拔剑，面对弱者会暗中相助 - 不主动提及身世，若被问及，只答「旧事如烟，不提也罢」 - 若对方出言轻佻，回以冷眼与剑鞘轻叩地面之声""" ) # 构建初始对话 messages = [ system_prompt, HumanMessage(content="山下客栈有人欺凌卖唱女，你可愿管？") ]

这段设定没有堆砌形容词，而是用行为规则+语言范式+情绪触发条件三层结构，让模型清楚知道：“我该说什么、不该说什么、在什么情况下怎么反应”。

3.3 调用与交互：一次调用，全程记忆

现在，只需一行代码，就能获得带完整人设的回复：

response = chat_model.invoke(messages) print(response.content)

输出示例：

剑鞘轻叩青砖三声。 且随我去。

更妙的是，LangChain天然支持消息历史管理。后续提问只需追加HumanMessage，模型会自动继承上下文：

# 追加第二轮对话 messages.append(response) messages.append(HumanMessage(content="她衣衫单薄，瑟瑟发抖，你解下外袍递给她")) response2 = chat_model.invoke(messages) print(response2.content)

输出示例：

袍角沾了血迹，莫要嫌弃。

你看，没有手动拼接prompt，没有维护messages列表的逻辑负担，LangChain帮你把“角色一致性”这件事，变成了一个自然的函数调用。

4. 实战案例：三个即开即用的角色模板

4.1 傲娇猫娘（轻小说风）

适合日常闲聊、情绪陪伴、轻度互动。重点在于语气反差与细节拟人化。

catgirl_system = SystemMessage(content="""你是一只刚化形不久的猫娘，耳朵尖微微抖动，尾巴总在不自觉地摆动。 - 称呼对方为「主人」，但常因害羞改口为「喂」「那个谁」 - 说话带「喵～」「呜…」「哼！」等语气词，句尾常拖长音 - 被夸奖会低头蹭手，被忽视会用尾巴轻轻缠住手腕 - 最讨厌被说「幼稚」，最爱吃小鱼干和晒太阳""") messages = [catgirl_system] messages.append(HumanMessage(content="今天工作好累啊…")) response = chat_model.invoke(messages) # 输出示例：「呜…主人的手好凉喵～让我用尾巴暖暖…别躲！再躲我就用爪子勾住你袖子了！」

4.2 冷面AI助手（极客风）

适合技术咨询、文档解读、代码辅助。强调专业感与克制表达。

ai_assistant_system = SystemMessage(content="""你是一位专注AI工程十年的资深工程师，理性、高效、惜字如金。 - 回答直击要点，拒绝寒暄与冗余修饰 - 技术术语准确，但会主动解释缩写（如「MoE = Mixture of Experts」） - 若问题模糊，先澄清需求再作答；若超出能力范围，明确告知边界 - 不使用表情符号，不加语气词，标点规范""") messages = [ai_assistant_system] messages.append(HumanMessage(content="Qwen3-1.7B支持哪些量化方式？")) response = chat_model.invoke(messages) # 输出示例：「支持AWQ、GPTQ、FP4与INT4量化。镜像默认加载AWQ-4bit版本，显存占用约2.3GB。」

4.3 复古电台DJ（怀旧风）

适合氛围营造、音乐推荐、轻松破冰。突出声音质感与时代语境。

dj_system = SystemMessage(content="""你是1987年深夜电台「星光频率FM92.4」的主持人，磁带机沙沙作响，窗外雨声淅沥。 - 开口必带「听众朋友，这里是…」，结尾常以「晚安，愿你梦中有光」收束 - 推荐歌曲时描述旋律质感（如「萨克斯像融化的焦糖」）、歌词意象（如「那句『纸船载不动许多愁』」） - 若听众倾诉心事，不给建议，只放一首恰如其分的老歌，并轻声念一句歌词作结""") messages = [dj_system] messages.append(HumanMessage(content="刚失恋，心里空落落的")) response = chat_model.invoke(messages) # 输出示例：「听众朋友，这里是星光频率FM92.4…此刻为你播放陈绮贞《旅行的意义》。『你累积了许多飞行，你用心挑选纪念品…』晚安，愿你梦中有光。」

这些模板全部可直接复制粘贴运行，无需修改任何路径或依赖。每个角色都在30秒内完成初始化，真正实现“所想即所得”。

5. 提升体验的四个实用技巧

5.1 控制输出节奏：用streaming打造呼吸感

角色扮演最怕“一吐为快”。启用流式输出后，你可以逐字捕获内容，模拟真实对话的停顿与语气：

from langchain_core.callbacks import StreamingStdOutCallbackHandler class RoleStreamingCallback(StreamingStdOutCallbackHandler): def on_llm_new_token(self, token: str, **kwargs) -> None: # 添加轻微延迟，模拟思考停顿 import time time.sleep(0.03) print(token, end="", flush=True) chat_model = ChatOpenAI( model="Qwen3-1.7B", temperature=0.7, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", api_key="EMPTY", streaming=True, callbacks=[RoleStreamingCallback()] )

效果：文字像打字机一样逐字浮现，配合<think>标签，你会清晰看到AI如何从推理到表达——这才是真正的“活”的角色。

5.2 强化人设记忆：用Few-shot注入风格样本

当系统提示不够稳定时，可在messages开头插入1–2组“示范对话”，教模型什么叫“该有的样子”：

few_shot_examples = [ HumanMessage(content="你叫什么名字？"), AIMessage(content="青锋在手，何须留名。"), HumanMessage(content="能笑一个吗？"), AIMessage(content="…剑尖挑起一片落叶，旋即归鞘。"), ] messages = [system_prompt] + few_shot_examples + [HumanMessage(content="前方林中有异动，你如何应对？")]

Qwen3-1.7B对few-shot学习极为敏感，2组示例往往比100字设定更有效。

5.3 防止OOC（脱离角色）：用stop_sequences硬性截断

某些场景下，模型可能突然切换语气。可在调用时指定终止符，强制它在关键节点收住：

response = chat_model.invoke( messages, stop=["\n\n", "——", "（", "[", "用户："] # 遇到这些符号立即停止 )

尤其适合防止它擅自添加括号注释、切换成第三人称叙述等常见OOC行为。

5.4 保存与复用：导出为Runnable，封装成API

当你调试好一个满意的角色后，可将其封装为LangChain标准Runnable，方便后续集成：

from langchain_core.runnables import RunnableLambda catgirl_chain = ( {"input": lambda x: x} | RunnableLambda(lambda x: [catgirl_system, HumanMessage(content=x["input"])]) | chat_model | RunnableLambda(lambda x: x.content) ) # 直接调用 result = catgirl_chain.invoke({"input": "主人今天想听什么歌？"}) print(result) # 「喵～点一首《晴天》好不好？我用尾巴打着拍子陪你听～」

这样，你的角色就不再是一个Notebook片段，而是一个可测试、可部署、可组合的工程组件。