Qwen多任务推理怎么搞？Prompt工程实战教程-平芜编程栈

Qwen多任务推理怎么搞？Prompt工程实战教程

1. 为什么一个模型能干两件事？

你有没有试过这样的场景：想让AI既分析一段话的情绪，又接着和你聊上几句？传统做法往往是装两个模型——一个专攻情感分析，一个负责对话。结果呢？显存不够、环境冲突、部署复杂，最后连跑通都费劲。

而Qwen1.5-0.5B给出了一种更轻、更巧、更“聪明”的解法：不换模型，只换提示词（Prompt）。

它不是靠堆参数、加模块来堆功能，而是把大模型当成一个可编程的“智能接口”——你给它不同的指令格式、不同的角色设定、不同的输出约束，它就能在同一个模型实例里，秒切身份、无缝切换任务。

这背后不是魔法，是Prompt工程的真实力量：用语言指挥模型，而不是用代码硬编码逻辑。

对开发者来说，这意味着什么？
不用再为多个模型的版本兼容发愁
不用在CPU设备上反复折腾CUDA或量化配置
不用下载几GB的BERT权重，一行pip install就能开干
更重要的是——你能真正看懂、改得动、调得准每一步推理逻辑

接下来，我们就从零开始，手把手带你把Qwen1.5-0.5B变成你的“双模小助手”。

2. 环境准备：三步搞定本地运行

别被“LLM”吓住——这次我们压根不用GPU，连显卡驱动都不需要。整个过程就像搭积木，干净利落。

2.1 基础依赖安装（30秒）

打开终端，执行以下命令：

pip install torch transformers sentencepiece jieba gradio

注意：不需要modelscope、peft、bitsandbytes等任何额外库。本项目坚持“最小依赖原则”，所有功能仅靠原生 Transformers 实现。

2.2 模型加载：自动下载 + 零配置

Qwen1.5-0.5B 已托管在 Hugging Face，支持离线缓存。首次运行时会自动拉取（约380MB），后续复用本地缓存：

from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_name = "Qwen/Qwen1.5-0.5B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float32, # 显式指定FP32，避免CPU下自动转float16出错 device_map="cpu" # 强制CPU运行 )

小贴士：如果你用的是Mac M系列芯片，把device_map="cpu"改成device_map="mps"，速度还能再快30%。

2.3 验证是否就绪：跑个最简推理

试试让它说一句“你好”：

inputs = tokenizer("你好", return_tensors="pt").to("cpu") outputs = model.generate(**inputs, max_new_tokens=10, do_sample=False) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) # 输出示例：你好！很高兴见到你。

看到这行输出，恭喜——你的Qwen双任务引擎，已经点火成功

3. Prompt设计实战：让一个模型分饰两角

核心来了：怎么让同一个模型，在同一时刻“既是分析师，又是聊天伙伴”？答案不在模型结构里，而在你喂给它的那几句话里。

我们不训练、不微调、不改权重，只靠三类Prompt精准控制行为：

3.1 情感分析Prompt：冷酷、精准、不废话

目标很明确：输入一句话，输出“正面”或“负面”，不能多一个字，不能少一个标点。

我们用System Prompt定义角色，User Prompt传入待分析文本，再用特殊标记约束输出格式：

def build_sentiment_prompt(text: str) -> str: return f"""<|im_start|>system 你是一个冷酷的情感分析师，只做二分类判断：正面 或 负面。不解释、不扩展、不生成额外内容。输出必须且只能是这两个词之一，结尾不加句号。 <|im_end|> <|im_start|>user {text} <|im_end|> <|im_start|>assistant """

关键设计点：

<|im_start|>/<|im_end|>是Qwen原生Chat Template的分隔符，必须严格匹配
System Prompt中强调“只输出两个词”“不加句号”，这是防止模型“发挥过度”的第一道防线
最后留空<|im_start|>assistant\n，告诉模型：“该你写了，而且只写答案”

测试一下：

prompt = build_sentiment_prompt("今天的实验终于成功了，太棒了！") inputs = tokenizer(prompt, return_tensors="pt").to("cpu") outputs = model.generate( **inputs, max_new_tokens=5, # 限制最多输出5个token（“正面”2字+空格/换行） do_sample=False, temperature=0.0 # 关闭随机性，确保每次结果一致 ) result = tokenizer.decode(outputs[0], skip_special_tokens=True) print(result.split("<|im_start|>assistant")[-1].strip()) # 输出：正面

成功！全程无GPU，CPU上平均响应时间 < 1.2秒（i7-11800H实测）

3.2 对话Prompt：自然、连贯、有温度

情感分析要“冷”，对话就要“暖”。我们回归Qwen标准的多轮对话模板，但做两处关键优化：

角色预设更具体：不只是“助手”，而是“专注倾听、温和回应的朋友”
历史上下文显式管理：避免模型“忘事”，手动拼接最近2轮对话

def build_chat_prompt(history: list, user_input: str) -> str: """ history: [("用户说...", "AI回复..."), ...] """ prompt = "<|im_start|>system\n你是一个专注倾听、温和回应的朋友。回答简洁自然，带一点人情味，不使用专业术语。\n<|im_end|>\n" for user_msg, ai_msg in history[-2:]: # 只保留最近2轮，防爆显存 prompt += f"<|im_start|>user\n{user_msg}\n<|im_end|>\n<|im_start|>assistant\n{ai_msg}\n<|im_end|>\n" prompt += f"<|im_start|>user\n{user_input}\n<|im_end|>\n<|im_start|>assistant\n" return prompt

测试对话流：

history = [] user_input = "今天的实验终于成功了，太棒了！" chat_prompt = build_chat_prompt(history, user_input) inputs = tokenizer(chat_prompt, return_tensors="pt").to("cpu") outputs = model.generate( **inputs, max_new_tokens=64, do_sample=True, temperature=0.7, top_p=0.9 ) response = tokenizer.decode(outputs[0], skip_special_tokens=True) ai_reply = response.split("<|im_start|>assistant")[-1].strip() print("AI回复：", ai_reply) # 输出示例：太为你开心了！是不是调试了很久？需要我帮你记录下这个成功时刻吗？

看到了吗？同一个模型，换一套Prompt，就从“冷面判官”变成了“暖心朋友”。

4. 多任务协同：如何让两个Prompt不打架？

光会单独跑还不够——真实场景中，用户输入一次，你要先判情绪，再聊感受。这就引出一个关键问题：

两个Prompt结构不同、输出要求不同、甚至token长度策略都不同，怎么保证它们共用一个模型时不互相污染？

答案是：完全隔离 + 显式重置

4.1 内存与状态零共享

Transformers 的generate()是无状态的：每次调用都从输入token重新开始计算，不会继承上一次的KV Cache。所以只要你每次构造完整Prompt（含system/user/assistant分隔符），模型就“以为”这是全新对话。

安全点1：情感分析输出后，KV Cache自动清空
安全点2：对话Prompt里显式包含历史，不依赖模型“记忆”

4.2 输出解析防误判

情感分析输出只有“正面”“负面”，但模型偶尔会偷偷加个空格、换行，甚至输出“正面。”（带句号）。我们在解析层加一道“清洗”：

def parse_sentiment(raw_output: str) -> str: clean = raw_output.strip().replace("。", "").replace("？", "").replace("！", "") if "正面" in clean: return "正面" elif "负面" in clean: return "负面" else: return "中性" # 保险兜底

4.3 完整工作流代码（可直接运行）

def run_dual_task(user_text: str, history: list = None): if history is None: history = [] # Step 1: 情感分析 sent_prompt = build_sentiment_prompt(user_text) inputs = tokenizer(sent_prompt, return_tensors="pt").to("cpu") outputs = model.generate(**inputs, max_new_tokens=5, do_sample=False, temperature=0.0) sentiment = parse_sentiment(tokenizer.decode(outputs[0], skip_special_tokens=True)) # Step 2: 生成对话回复 chat_prompt = build_chat_prompt(history, user_text) inputs = tokenizer(chat_prompt, return_tensors="pt").to("cpu") outputs = model.generate( **inputs, max_new_tokens=64, do_sample=True, temperature=0.7, top_p=0.9 ) reply = tokenizer.decode(outputs[0], skip_special_tokens=True) ai_reply = reply.split("<|im_start|>assistant")[-1].strip() # Step 3: 更新历史（只存最新一轮） history.append((user_text, ai_reply)) return { "sentiment": sentiment, "reply": ai_reply, "history": history } # 实战测试 result = run_dual_task("今天的实验终于成功了，太棒了！") print(f"😄 LLM 情感判断: {result['sentiment']}") print(f" AI回复: {result['reply']}")

运行结果：

😄 LLM 情感判断: 正面 AI回复: 太为你开心了！是不是调试了很久？需要我帮你记录下这个成功时刻吗？

整个流程无需重启模型、不占额外内存、不引入新依赖——真正的“一模双用”。

5. 进阶技巧：让Prompt更稳、更快、更准

上面的方案已能稳定运行，但如果你希望它在真实项目中扛住压力、适应更多场景，这里有几个经过实测的提效技巧：

5.1 输出长度硬约束：比temperature更可靠

很多新手喜欢调temperature来“控制风格”，但在CPU上，低temperature + 高top_p容易导致生成卡死。更稳妥的做法是：

情感分析：max_new_tokens=3（“正面”2字 + 1个空格/换行）
对话回复：max_new_tokens=64，并配合eos_token_id=tokenizer.eos_token_id提前终止

# 更健壮的生成参数 outputs = model.generate( **inputs, max_new_tokens=3, eos_token_id=tokenizer.eos_token_id, # 遇到</s>立即停 pad_token_id=tokenizer.pad_token_id, do_sample=False )

5.2 中文标点归一化：解决Prompt里的“隐形干扰”

Qwen对中文标点敏感。比如用户输入用的是中文感叹号“！”，但你的System Prompt里写的是英文“!”，模型可能识别不稳定。统一用jieba做预处理：

import jieba def normalize_punctuation(text: str) -> str: # 将常见中文标点转为英文（Qwen训练时更熟悉英文标点） text = text.replace("，", ",").replace("。", ".").replace("？", "?").replace("！", "!") text = text.replace("“", '"').replace("”", '"').replace("‘", "'").replace("’", "'") return text # 使用前先归一化 user_text = normalize_punctuation("今天的实验终于成功了，太棒了！")

5.3 批量推理优化：一次跑多个句子

虽然本项目主打单次交互，但如果你要做批量情感分析（比如分析100条评论），可以利用tokenizer的batch能力：

texts = ["今天真倒霉", "这个产品太好用了", "一般般吧"] prompts = [build_sentiment_prompt(t) for t in texts] # 批量编码 batch_inputs = tokenizer( prompts, padding=True, truncation=True, max_length=128, return_tensors="pt" ).to("cpu") outputs = model.generate( **batch_inputs, max_new_tokens=3, do_sample=False ) for i, out in enumerate(outputs): result = tokenizer.decode(out, skip_special_tokens=True) print(f"{texts[i]} → {parse_sentiment(result)}")

效率提升3倍以上，且内存占用几乎不变。