Qwen3-1.7B技术解析：return_reasoning返回值结构说明-平芜编程栈

Qwen3-1.7B技术解析：return_reasoning返回值结构说明

1. 技术背景与核心特性

随着大语言模型在推理能力、响应质量以及可解释性方面的持续演进，如何让模型不仅“回答问题”，还能“展示思考过程”成为提升AI可信度和交互价值的关键。Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B至235B。其中，Qwen3-1.7B作为轻量级但功能完备的代表型号，在边缘计算、本地部署和快速原型开发场景中展现出极高的实用性。

该模型支持多种高级推理模式，尤其通过enable_thinking=True和return_reasoning=True配置项，实现了对“思维链（Chain-of-Thought, CoT）”过程的显式输出。这一能力使得开发者可以获取模型在生成最终答案前的中间推理步骤，从而增强系统的透明度、可调试性和业务合规性。

本篇文章将重点解析当启用return_reasoning=True时，Qwen3-1.7B 返回值的数据结构设计、字段含义及其在实际应用中的解析方法。

2. 启动环境与调用方式

2.1 启动镜像并打开Jupyter

为使用 Qwen3-1.7B 模型进行实验或开发，推荐通过预置AI镜像环境一键启动服务。典型流程如下：

在支持GPU的云平台选择包含 Qwen3 系列模型的镜像；
启动实例后，进入Web终端，运行 Jupyter Lab 或 Notebook 服务；
访问提供的 Web URL 地址（通常形如https://gpu-podxxxxx.web.gpu.csdn.net），登录 Jupyter 界面；
创建.ipynb文件开始编码。

确保服务监听端口为8000，且模型已正确加载并对外提供 OpenAI 兼容接口。

2.2 使用 LangChain 调用 Qwen3-1.7B

LangChain 作为主流的 LLM 应用开发框架，支持对接符合 OpenAI API 协议的服务端点。以下代码展示了如何配置ChatOpenAI类以调用远程部署的 Qwen3-1.7B 模型，并启用推理路径返回功能。

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="Qwen3-1.7B", temperature=0.5, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", # 替换为当前Jupyter实例对应的API地址 api_key="EMPTY", # 当前服务无需真实密钥 extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, ) response = chat_model.invoke("你是谁？") print(response)

注意：extra_body是 LangChain 中用于传递非标准参数的关键字段，允许向底层 HTTP 请求注入自定义 JSON 负载。此处设置"enable_thinking": true表示开启逐步推理模式，而"return_reasoning": true则指示服务端应将完整的推理轨迹包含在响应中。

3. return_reasoning 返回值结构深度解析

3.1 响应数据的整体结构

当return_reasoning=True时，Qwen3-1.7B 的返回结果不再仅是一个纯文本响应，而是包含完整推理过程的结构化对象。其顶层结构遵循 OpenAI 兼容格式，但在choices字段内扩展了额外字段用于承载推理信息。

典型的返回 JSON 结构如下所示：

{ "id": "chat-xxx", "object": "chat.completion", "created": 1730000000, "model": "Qwen3-1.7B", "choices": [ { "index": 0, "message": { "role": "assistant", "content": "我是通义千问3，由阿里云研发的大语言模型。", "reasoning_steps": [ { "step": 1, "thought": "用户询问我的身份。", "action": "检索自我认知知识库", "observation": "我属于Qwen3系列，版本为1.7B。", "output": "准备介绍自己" }, { "step": 2, "thought": "需要简洁明了地表达来源和功能定位。", "action": "构造回应语句", "observation": "强调研发单位与模型用途", "output": "生成最终回复内容" } ], "thinking_time_ms": 245, "total_tokens_used": 89 }, "finish_reason": "stop" } ], "usage": { "prompt_tokens": 15, "completion_tokens": 74, "total_tokens": 89 } }

3.2 关键字段详解

message.content

类型：string
含义：最终呈现给用户的自然语言回答。
示例："我是通义千问3，由阿里云研发的大语言模型。"

message.reasoning_steps

类型：array<object>
必须存在条件：仅当return_reasoning=true时出现。
每个元素包含以下子字段：
- step: 推理步骤序号（从1开始递增）
- thought: 当前步骤的内部思考内容
- action: 执行的动作类型（如“查询记忆”、“逻辑推导”等）
- observation: 动作执行后的观察结果
- output: 本步输出，可能作为下一步输入

此结构模仿了 ReAct（Reason + Act）范式，使模型行为更具可追溯性。

thinking_time_ms

类型：integer
单位：毫秒
含义：模型完成所有推理步骤所消耗的时间，不包括网络传输延迟。
用途：可用于性能监控与优化分析。

total_tokens_used

类型：integer
含义：本次请求总共消耗的 token 数量（含 prompt 和 completion）。
注意：不同于 usage 字段中的统计，此值为模型内部计数，可用于校验一致性。

3.3 数据结构可视化表示

层级	字段名	类型	是否必现	说明
root	id	string	是	请求唯一标识
root	object	string	是	固定为`chat.completion`
root	created	int	是	时间戳（Unix秒）
root	model	string	是	模型名称
root	choices	array	是	候选响应列表
choices[0]	index	int	是	选项索引
choices[0].message	role	string	是	角色（assistant/user/system）
choices[0].message	content	string	是	最终回答文本
choices[0].message	reasoning_steps	array	条件存在	推理步骤数组
reasoning_steps[i]	step	int	是	步骤编号
reasoning_steps[i]	thought	string	是	内部思考描述
reasoning_steps[i]	action	string	是	执行动作
reasoning_steps[i]	observation	string	是	动作结果
reasoning_steps[i]	output	string	是	本步输出摘要
choices[0].message	thinking_time_ms	int	是	推理耗时（毫秒）
choices[0].message	total_tokens_used	int	是	总token消耗
choices[0]	finish_reason	string	是	终止原因（stop/truncate）
root	usage	object	是	Token 使用统计

3.4 实际解析代码示例

以下 Python 代码演示如何提取并格式化输出推理路径：

def parse_reasoning_response(response): if hasattr(response, 'additional_kwargs'): kwargs = response.additional_kwargs steps = kwargs.get("reasoning_steps", []) print("🔍 模型推理路径：") for s in steps: print(f" Step {s['step']}:") print(f" 思考: {s['thought']}") print(f" 动作: {s['action']}") print(f" 观察: {s['observation']}") print(f" 输出: {s['output']}") print(f"⏱️ 推理耗时: {kwargs.get('thinking_time_ms')}ms") print(f"📊 总Token消耗: {kwargs.get('total_tokens_used')}") else: print("⚠️ 未检测到推理路径信息，请确认 enable_thinking 和 return_reasoning 已启用。") # 调用示例 parse_reasoning_response(response)

输出效果如下：

🔍 模型推理路径： Step 1: 思考: 用户询问我的身份。 动作: 检索自我认知知识库 观察: 我属于Qwen3系列，版本为1.7B。 输出: 准备介绍自己 Step 2: 思考: 需要简洁明了地表达来源和功能定位。 动作: 构造回应语句 观察: 强调研发单位与模型用途 输出: 生成最终回复内容 ⏱️ 推理耗时: 245ms 📊 总Token消耗: 89