开箱即用！Qwen3-Embedding-4B一键部署教程（附Python示例）-平芜编程栈

开箱即用！Qwen3-Embedding-4B一键部署教程（附Python示例）

1. 概述

随着大模型在检索、分类、聚类等任务中的广泛应用，高质量的文本嵌入（Text Embedding）能力成为构建智能系统的核心基础。Qwen3-Embedding 系列是通义千问团队推出的最新一代专用嵌入模型家族，专为文本表示与排序任务设计。其中Qwen3-Embedding-4B作为中等规模型号，在性能与资源消耗之间实现了良好平衡，适用于大多数生产级应用场景。

该模型基于 Qwen3 系列的密集基础架构，继承了其强大的多语言理解、长文本处理和推理能力。无论是在中文语境下的精准语义表达，还是跨语言信息检索、代码片段匹配等复杂场景，Qwen3-Embedding-4B 均表现出色。

1.1 核心优势

卓越的多语言支持：覆盖超过 100 种自然语言及主流编程语言，具备出色的双语文本挖掘与跨语言检索能力。
超长上下文支持：最大支持32,768 token的输入长度，适合处理长文档、技术手册或完整代码文件。
灵活向量维度输出：支持用户自定义嵌入维度（32～2560），可根据下游任务需求调整向量大小，优化存储与计算效率。
指令感知能力：通过添加任务描述性指令（Instruct Prompt），可显著提升特定场景下的语义匹配精度。
高效重排序集成：可与 Qwen3-Reranker 系列模型配合使用，构建“检索+重排”双阶段系统，进一步提升召回质量。

本教程将带你从零开始，快速完成 Qwen3-Embedding-4B 的本地化部署，并提供多种调用方式的完整 Python 示例，助你实现开箱即用。

2. 部署准备：环境与镜像获取

本文所介绍的部署方案基于SGlang推理框架，支持高吞吐、低延迟的向量服务部署。推荐使用 CSDN 星图平台提供的预置镜像进行一键启动，也可手动配置本地环境。

2.1 使用星图镜像一键部署

CSDN 星图已上线Qwen3-Embedding-4B预装镜像，集成 SGlang 运行时环境，支持 HTTP API 调用，开箱即用。

操作步骤如下：

访问 CSDN星图镜像广场
搜索关键词 “Qwen3-Embedding-4B”
选择对应镜像并点击“立即部署”
配置 GPU 实例规格（建议至少 16GB 显存）
启动后自动运行 SGlang 服务，默认监听端口30000

服务启动成功后，可通过以下地址访问 OpenAI 兼容接口：

http://<your-instance-ip>:30000/v1

提示：若需持久化模型数据或加快加载速度，建议挂载高性能 SSD 存储卷。

3. 模型调用验证：Jupyter Lab 快速测试

部署完成后，可通过 Jupyter Notebook 进行快速功能验证。以下是一个标准的嵌入生成请求示例。

3.1 安装依赖库

pip install openai

注意：此处使用的openai是通用客户端库，仅用于调用兼容 OpenAI API 格式的后端服务，并非必须连接 OpenAI 官方服务器。

3.2 发起嵌入请求

import openai # 初始化客户端，指向本地 SGlang 服务 client = openai.Client( base_url="http://localhost:30000/v1", api_key="EMPTY" # SGlang 默认无需认证 ) # 文本嵌入请求 response = client.embeddings.create( model="Qwen3-Embedding-4B", input="How are you today?" ) # 输出结果 print("Embedding 维度:", len(response.data[0].embedding)) print("前10个向量值:", response.data[0].embedding[:10])

预期输出：

Embedding 维度: 2560 前10个向量值: [0.012, -0.034, 0.056, ..., 0.009]

✅ 若能正常返回长度为 2560 的浮点数列表，则说明模型部署成功。

4. 多种调用方式详解

根据实际项目需求，可以选择不同的 SDK 或框架来调用 Qwen3-Embedding-4B。以下是三种主流方式的详细实现。

4.1 使用 Sentence Transformers（推荐用于批量编码）

Sentence Transformers 是最流行的句子嵌入库之一，对 Hugging Face 模型有良好支持。

安装依赖

pip install sentence-transformers>=2.7.0 transformers>=4.51.0 torch

编码示例

from sentence_transformers import SentenceTransformer # 加载本地或远程模型 model = SentenceTransformer("Qwen/Qwen3-Embedding-4B") # 可选：启用 Flash Attention 并设置左填充以加速推理 # model = SentenceTransformer( # "Qwen/Qwen3-Embedding-4B", # model_kwargs={"attn_implementation": "flash_attention_2", "device_map": "auto"}, # tokenizer_kwargs={"padding_side": "left"} # ) # 待编码文本 queries = [ "中国的首都是哪里？", "解释万有引力定律" ] documents = [ "北京是中国的首都。", "万有引力是物体间相互吸引的力，由牛顿提出。" ] # 生成嵌入向量 query_embeddings = model.encode(queries, prompt_name="query") # 添加 query 指令 document_embeddings = model.encode(documents) # 默认 instruction 已内置 # 计算余弦相似度 similarity = model.similarity(query_embeddings, document_embeddings) print(similarity.numpy())

输出示例：

[[0.7493 0.0751] [0.0880 0.6318]]

🔍技巧提示：使用prompt_name="query"会自动附加“Instruct: Given a web search query…”指令，显著提升检索相关性。

4.2 使用 Transformers 原生 API（细粒度控制）

适用于需要自定义池化策略、注意力机制或与其他模块集成的高级场景。

安装依赖

pip install transformers torch

完整实现代码

import torch import torch.nn.functional as F from transformers import AutoTokenizer, AutoModel from torch import Tensor def last_token_pool(last_hidden_states: Tensor, attention_mask: Tensor) -> Tensor: """ 使用最后一个有效 token 的隐藏状态作为句向量（适用于 left-padding 场景） """ if attention_mask[:, -1].sum() == attention_mask.shape[0]: # 左填充 return last_hidden_states[:, -1] else: sequence_lengths = attention_mask.sum(dim=1) - 1 batch_size = last_hidden_states.shape[0] return last_hidden_states[torch.arange(batch_size), sequence_lengths] def get_detailed_instruct(task_desc: str, query: str) -> str: return f"Instruct: {task_desc}\nQuery: {query}" # 任务定义 task = "Given a web search query, retrieve relevant passages that answer the query" queries = [ get_detailed_instruct(task, "什么是人工智能？"), get_detailed_instruct(task, "Python 中如何读取 CSV 文件？") ] documents = [ "人工智能是让机器模拟人类智能行为的技术。", "可以使用 pandas 库的 read_csv 函数读取 CSV 文件。" ] input_texts = queries + documents # 加载 tokenizer 和模型 tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-Embedding-4B", padding_side="left") model = AutoModel.from_pretrained("Qwen/Qwen3-Embedding-4B").cuda() max_length = 8192 batch_dict = tokenizer( input_texts, padding=True, truncation=True, max_length=max_length, return_tensors="pt" ).to(model.device) # 前向传播 with torch.no_grad(): outputs = model(**batch_dict) embeddings = last_token_pool(outputs.last_hidden_state, batch_dict['attention_mask']) # 归一化向量（便于计算余弦相似度） embeddings = F.normalize(embeddings, p=2, dim=1) # 计算查询与文档的相似度 scores = (embeddings[:2] @ embeddings[2:].T).cpu().tolist() print(scores)

输出示例：

[[0.7493, 0.0751], [0.0880, 0.6318]]

4.3 使用 vLLM 高性能推理（适合高并发服务）

vLLM 支持 PagedAttention 技术，显著提升批处理效率，适合构建高吞吐嵌入服务。

安装依赖

pip install vllm>=0.8.5

调用示例

import torch from vllm import LLM def get_detailed_instruct(task_desc: str, query: str) -> str: return f"Instruct: {task_desc}\nQuery: {query}" task = "Given a question, find the most relevant answer" queries = [ get_detailed_instruct(task, "太阳系中最大的行星是什么？"), get_detailed_instruct(task, "HTTP 和 HTTPS 有什么区别？") ] documents = [ "木星是太阳系中体积和质量最大的行星。", "HTTPS 是加密版的 HTTP，安全性更高。" ] input_texts = queries + documents # 初始化 vLLM 模型（指定 task="embed" 启用嵌入模式） llm = LLM(model="Qwen/Qwen3-Embedding-4B", task="embed", dtype=torch.float16, gpu_memory_utilization=0.9) # 获取嵌入 outputs = llm.embed(input_texts) embeddings = torch.tensor([o.outputs.embedding for o in outputs]) # 计算相似度 scores = (embeddings[:2] @ embeddings[2:].T).tolist() print(scores)

⚙️建议配置：使用dtype=torch.float16减少显存占用，gpu_memory_utilization=0.9提高利用率。

5. 性能优化与最佳实践

为了充分发挥 Qwen3-Embedding-4B 的潜力，以下是一些工程落地中的关键建议。

5.1 量化部署降低资源消耗

对于资源受限环境，可采用 GGUF 格式量化模型，通过 Ollama 或 llama.cpp 运行：

# 使用 Ollama 下载量化版本（推荐 Q4_K_M 或 Q5_K_M） ollama run dengcao/Qwen3-Embeding-4B:Q4_K_M

量化等级	显存占用	推理速度	精度损失
F16	~8 GB	中	无
Q8_0	~6 GB	慢	极小
Q5_K_M	~5 GB	快	小
Q4_K_M	~4.5 GB	很快	可接受

✅ 推荐生产环境使用Q5_K_M，兼顾性能与精度。

5.2 自定义嵌入维度

可通过参数控制输出维度（如 512、1024），减少网络传输与存储开销：

# 在支持的范围内指定 output_dim response = client.embeddings.create( model="Qwen3-Embedding-4B", input="Hello world", dimensions=512 # 可选：32 ~ 2560 )

📌 注意：并非所有部署方式都支持动态降维，需确认后端是否启用此功能。

5.3 批量处理提升吞吐

尽量合并多个请求为一个批次，避免频繁小请求带来的调度开销：

inputs = ["sentence1", "sentence2", ..., "sentenceN"] response = client.embeddings.create(model="Qwen3-Embedding-4B", input=inputs)

理想批次大小取决于 GPU 显存和序列长度，一般建议 8~64 条/批。

6. 总结

本文系统介绍了Qwen3-Embedding-4B的一键部署流程与多种调用方式，涵盖从环境搭建到实际编码的完整链路。该模型凭借其强大的多语言能力、超长上下文支持和灵活的指令感知机制，已成为当前中文场景下极具竞争力的嵌入解决方案。

我们重点讲解了以下内容：

如何通过 CSDN 星图平台一键部署 SGlang 服务；
使用 OpenAI 兼容接口进行快速验证；
三种主流调用方式（Sentence Transformers、Transformers、vLLM）的完整代码示例；
实际应用中的性能优化策略，包括量化、维度裁剪与批量处理。

无论你是构建 RAG 系统、搜索引擎、推荐引擎，还是做文本聚类分析，Qwen3-Embedding-4B 都能为你提供高质量的语义表示能力。

下一步你可以尝试将其与向量数据库（如 Milvus、Pinecone）结合，打造完整的语义检索 pipeline。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

开箱即用！Qwen3-Embedding-4B一键部署教程（附Python示例）