【词汇专栏】向量数据库：RAG的弹药库-平芜编程栈

向量数据库：RAG的弹药库

一句话理解

向量数据库是AI时代的"图书馆索引系统"——不是按字母排序，而是按语义相似度组织，让AI能够快速找到"意思相近"的内容。2026年，向量数据库已从"可选项"变成RAG和Agent系统的"必选项"。

1. 什么是向量数据库

1.1 定义

向量数据库（Vector Database）是一种专门存储和检索高维向量的数据库系统。

对比维度	传统数据库	向量数据库
查询语法	`SELECT * WHERE name = "AI"`	`SELECT * WHERE similar TO "machine"`
匹配方式	精确匹配	语义相似
示例	name = “AI”	AI ≈ 机器学习

1.2 为什么需要向量数据库

场景	传统方案	向量数据库
搜索"手机"	只返回含"手机"的结果	返回"iPhone"、"智能手机"等
语义理解	关键词匹配	理解意图
图片搜索	文件名匹配	视觉特征匹配
推荐系统	规则匹配	协同过滤

1.3 核心应用场景

向量数据库四大应用：

应用	说明
RAG 检索增强生成	结合知识库提供更准确的生成
语义搜索	基于语义理解而非关键词匹配
Agent 记忆系统	为Agent提供长期记忆能力
推荐系统	个性化推荐和相似度匹配

2. 核心原理

2.1 向量化：把内容变成数字

嵌入（Embedding）：将文本、图像等转换为向量

# 文本向量化示例fromsentence_transformersimportSentenceTransformer model=SentenceTransformer('all-MiniLM-L6-v2')# 单条文本text="人工智能是让机器具有人类智能的技术"vector=model.encode(text)print(f"向量维度:{len(vector)}")# 384维print(f"向量示例:{vector[:5]}...")# [-0.0231, 0.0542, ...]# 批量文本texts=["AI是什么","机器学习入门","深度学习教程"]vectors=model.encode(texts)print(f"向量矩阵:{vectors.shape}")# (3, 384)

2.2 相似度度量

度量方式	公式	适用场景
余弦相似度	cos(θ) = A·B/(\|A\|\|B\|)	文本嵌入
欧氏距离	√Σ(Aᵢ-Bᵢ)²	图像向量
点积	A·B	归一化向量

指标	说明
向量A	[1, 1] → 向量方向45°
向量B	[1, 0] → 向量方向0°
cos(θ)	= 0.707 → 70.7%相似
结论	更近的方向 = 更相似的语义

2.3 近似最近邻（ANN）索引

为什么需要ANN？

数据规模	暴力搜索时间	ANN搜索时间
1,000	1ms	<1ms
100,000	100ms	1ms
10,000,000	10s	10ms
100,000,000	100s	100ms

核心算法：

算法	特点	代表库
HNSW	图索引，速度快	Milvus, Qdrant
IVF	倒排索引	Faiss
PQ	量化压缩	Faiss
DiskANN	磁盘索引，大规模	Microsoft

层级	结构	作用
Layer 2	● ────── ●	全局连接（快速定位入口点）
Layer 1	● ──● ──● ──●	局部连接（精细搜索）
Layer 0	● ● ● ● ● ● ● ●	底层数据点

搜索流程：从顶层快速定位 → 逐层下降 → 找到最近邻

2.4 索引类型对比

索引类型	构建速度	查询速度	内存占用	精度
FLAT	-	慢	大	100%
IVF_FLAT	快	中	中	95-99%
HNSW	快	快	大	95-99%
PQ	很快	快	小	85-95%
HNSW_PQ	很快	很快	小	85-95%

3. 主流产品对比

3.1 产品一览

产品	类型	GitHub	特点
Milvus	开源	43K+ Stars	功能最全，百亿级支持
Pinecone	云服务	-	零运维，增长最快
Qdrant	开源	25K+ Stars	Rust实现，高性能
Weaviate	开源	22K+ Stars	原生多模态支持
Chroma	嵌入式	15K+ Stars	轻量级，嵌入式
FAISS	库(Meta)	30K+ Stars	最成熟，研究级

3.2 详细对比表

产品	类型	GitHub	特点	适合场景
Milvus	开源	43K+	功能最全，支持百亿级	企业级大规模
Pinecone	云服务	-	零运维，开箱即用	快速上线
Qdrant	开源	25K+	Rust实现，高性能	实时检索
Weaviate	开源	22K+	原生多模态	多模态应用
Chroma	嵌入式	15K+	轻量，易用	原型/POC
FAISS	库	30K+	Facebook出品，最成熟	研究/离线

3.3 选型建议

问题	选项	推荐方案
是否需要云服务？	Yes	→ Pinecone
No	→ 继续判断
开源方案？	No	→ Chroma（轻量POC）
Yes	→ 继续判断
数据规模多大？	100M+	→ Milvus（大规模）
其他	→ Qdrant（中小规模）

4. 2026年最新动态

4.1 技术演进

时间	进展	意义
2025	ChunkKV普及	长文本检索效率提升
2025	Hybrid Search成熟	关键词+向量混合搜索
2026.1	ThinKV发布	极致显存优化
2026.2	Graph-RAG整合	图结构+向量成为标配
2026.4	Agent Memory标配	向量库成为Agent长期记忆

4.2 2026年新趋势

1. 混合检索成为标配

阶段	关键词检索 (BM25)	向量检索 (Embedding)	RRF融合
用户查询	“AI Agent的发展”	同上	-
权重	AI×0.3, Agent×0.4	Agent×0.8, 发展×0.7	Reciprocal Rank Fusion
结果	关键词匹配文档	语义相似文档	最终Top-K排序

2. 与Agent深度整合

# Agent记忆系统的向量数据库设计classAgentMemory:"""Agent的向量记忆库"""def__init__(self):# 短期记忆：对话历史self.short_term=MilvusCollection("short_term")# 长期记忆：重要经验self.long_term=MilvusCollection("long_term")# 知识库：结构化知识self.knowledge=MilvusCollection("knowledge")defremember(self,experience):"""记忆存储"""vector=embed(experience)self.long_term.insert(vector,{"content":experience})defrecall(self,query):"""记忆检索"""query_vector=embed(query)# 混合检索results=self.long_term.search(query_vector,limit=5,hybrid=True,# 启用混合检索rerank=True# 重排序)returnresults

5. 实战代码

5.1 Milvus实战

# Milvus向量数据库实战frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,DataTypefromsentence_transformersimportSentenceTransformer# 1. 连接Milvusconnections.connect("default",host="localhost",port="19530")# 2. 定义Schemafields=[FieldSchema(name="id",dtype=DataType.INT64,is_primary=True,auto_id=True),FieldSchema(name="embedding",dtype=DataType.FLOAT_VECTOR,dim=384),FieldSchema(name="text",dtype=DataType.VARCHAR,max_length=65535),FieldSchema(name="metadata",dtype=DataType.JSON),]schema=CollectionSchema(fields,description="RAG Knowledge Base")# 3. 创建Collectioncollection=Collection("rag_knowledge",schema)# 4. 创建索引index_params={"index_type":"HNSW","metric_type":"COSINE","params":{"M":16,"efConstruction":200}}collection.create_index("embedding",index_params)# 5. 插入数据model=SentenceTransformer('all-MiniLM-L6-v2')texts=["RAG是检索增强生成技术","向量数据库用于存储嵌入向量","Agent可以调用工具完成任务"]embeddings=model.encode(texts)entities=[embeddings.tolist(),texts,[{"source":"doc1"},{"source":"doc2"},{"source":"doc3"}]]collection.insert(entities)# 6. 检索collection.load()search_params={"metric_type":"COSINE","params":{"ef":100}}query="什么是RAG技术？"query_vector=model.encode([query])results=collection.search(query_vector.tolist(),"embedding",search_params,limit=3,output_fields=["text","metadata"])forhitinresults[0]:print(f"文本:{hit.entity.get('text')}")print(f"相似度:{hit.score}")

5.2 Qdrant实战

# Qdrant向量数据库实战fromqdrant_clientimportQdrantClient,modelsfromqdrant_client.modelsimportDistance,VectorParams,PointStruct# 1. 连接Qdrantclient=QdrantClient("localhost",port=6333)# 2. 创建Collectionclient.create_collection(collection_name="my_collection",vectors_config=VectorParams(size=768,distance=Distance.COSINE),)# 3. 插入向量client.upsert(collection_name="my_collection",points=[PointStruct(id=1,vector=[0.1]*768,payload={"text":"RAG技术简介","category":"AI"}),PointStruct(id=2,vector=[0.2]*768,payload={"text":"向量数据库原理","category":"Database"}),])# 4. 检索search_results=client.search(collection_name="my_collection",query_vector=[0.15]*768,limit=5,query_filter=models.Filter(must=[models.FieldCondition(key="category",match=models.MatchValue(value="AI"))]))

5.3 Chroma轻量级实战

# Chroma嵌入式向量数据库importchromadbfromchromadb.utilsimportembedding_functions# 1. 创建Chroma客户端client=chromadb.Client()# 2. 创建Collectioncollection=client.create_collection(name="my_knowledge",embedding_function=embedding_functions.DefaultEmbeddingFunction())# 3. 添加文档collection.add(documents=["RAG = Retrieval Augmented Generation","向量数据库用于存储嵌入向量","Agent可以通过RAG获取知识"],ids=["doc1","doc2","doc3"],metadatas=[{"source":"web"},{"source":"book"},{"source":"paper"}])# 4. 查询results=collection.query(query_texts=["什么是RAG？"],n_results=2)print(results)

6. 选型指南

6.1 场景选型

场景	推荐选择	原因
快速POC	Chroma	零配置，易上手
中小规模生产	Qdrant	性能好，资源占用低
大规模企业级	Milvus	功能全，扩展性强
云服务/零运维	Pinecone	全托管，弹性扩展
研究/实验	FAISS	最成熟，灵活定制
多模态应用	Weaviate	原生支持图像等

6.2 成本对比

产品	免费额度	起步价/月	按量付费
Pinecone	1GB	$70/100M向量	✅
Milvus Cloud	1M向量	$25/100M向量	✅
Qdrant Cloud	1GB	$25	✅
Weaviate Cloud	1GB	$25	✅
Chroma	完全免费	-	-
Milvus (自部署)	免费	基础设施成本	-

7. 常见问题

Q1：向量数据库和普通数据库有什么区别？

答：核心区别在于检索方式。

对比	普通数据库	向量数据库
检索方式	精确匹配	近似匹配
查询语言	SQL	向量相似度
索引	B树、哈希	HNSW、IVF
适用场景	结构化数据	非结构化数据

Q2：什么时候需要向量数据库？

答：当需要"语义搜索"或"相似性检索"时。

✅ 需要AI理解查询意图
✅ 处理大量非结构化数据（文本、图片）
✅ 构建RAG系统
✅ Agent需要长期记忆
❌ 简单关键词匹配就够用
❌ 数据量很小（<1000条）

Q3：向量数据库的精度和性能如何平衡？

答：根据业务需求选择。

需求	推荐配置
高精度	HNSW (M=32, ef=200)
均衡	HNSW (M=16, ef=100)
高性能	PQ + HNSW
内存受限	DiskANN

Q4：向量数据库会取代传统数据库吗？

答：不会，两者互补。

向量数据库：处理非结构化数据的语义检索
传统数据库：处理结构化数据的事务和精确查询
最佳实践：混合架构，两者配合使用

8. 延伸阅读

相关词汇	关联度	推荐理由
W03 RAG	⭐⭐⭐⭐	向量数据库是RAG的核心组件
W12 嵌入	⭐⭐⭐⭐	嵌入是向量化的基础
W04 Agent	⭐⭐⭐	Agent Memory依赖向量库
W28 Agent记忆系统	⭐⭐⭐⭐	Agent Memory = 向量库 + 图库

🤔 批判性思考

1. 向量数据库是否过度工程化？

很多场景真的需要专门的向量数据库吗？
PostgreSQL + pgvector是否已经足够？

2. 云服务vs自部署的权衡

Pinecone等云服务是否会导致vendor lock-in？
自部署的运维成本是否被低估？

3. 数据安全问题

向量数据库中存储的数据安全性如何保证？
敏感信息向量化后是否仍需加密？

4. 标准化问题

各家向量数据库的API和数据格式不统一
是否需要行业标准？

本文收录于「AI词汇专栏」，作者：孤岛站岗

本文参考资料（2026年4月）：

《向量数据库完全指南》QubitTool 2026.2
《向量数据库选型指南2026》Dev.to
Milvus官方文档 2026.4
《43K Star的向量数据库实测》腾讯云 2026.4

【词汇专栏】向量数据库：RAG的弹药库