news 2026/3/26 15:06:37

Langchain(四)文本嵌入模型(Embedding Model)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Langchain(四)文本嵌入模型(Embedding Model)

介绍

文本嵌入模型是自然语言处理的核心,它能将文本转换为数值向量,使机器能够捕捉和处理语义信息 。LangChain框架通过Embeddings类为众多嵌入模型提供商(如OpenAI、Cohere、Hugging Face等)提供了一个标准的交互接口 。

嵌入模型就像是语言的翻译官,它们能够将人类可读的文本转换成计算机可理解的数字向量,让AI能够理解和处理文本的语义信息

为什么需要嵌入模型

文本处理问题 = '''
❌ 计算机无法直接理解文本: 只能处理数字
❌ 文本相似度难以计算: "猫"和"狗"的相似性?
❌ 语义信息丢失: 同义词无法识别
❌ 高维稀疏数据: 传统编码效率低
❌ 上下文理解缺失: 词语含义随语境变化
'''

嵌入模型解决方案 = '''
✅ 文本向量化: 将文本转换为密集向量
✅ 语义相似度: 通过向量距离计算语义相似性
✅ 同义词识别: 相似词语具有相近向量
✅ 降维高效: 密集向量表示更高效
✅ 上下文感知: 考虑词语使用环境
'''

嵌入模型工作原理

1. 文本到向量的转换过程

嵌入转换过程 = ''' 输入文本: "人工智能改变世界" ↓ 分词处理: ["人工", "智能", "改变", "世界"] ↓ 语义编码: 神经网络处理 ↓ 向量生成: [0.33, -0.64, 0.81, ..., 0.35] ↓ 输出结果: 769维向量(示例) ''' 向量空间概念 = ''' 想象一个多维空间: - 每个词语是一个点 - 相似词语距离近 - 不同词语距离远 - 语义关系 = 空间关系 '''

2. 嵌入模型的核心特性

嵌入模型特性 = { '语义保持性': { '定义': '相似文本有相似向量', '例子': '猫和狗的向量距离 < 猫和汽车的向量距离', '应用': '文本相似度计算、推荐系统' }, '上下文敏感性': { '定义': '同一词语在不同语境有不同向量', '例子': '苹果(水果) vs 苹果(公司) 有不同向量', '应用': '消歧义、语义理解' }, '维度高效性': { '定义': '用低维向量表示高维语义', '例子': '100维向量 vs 10万维词袋模型', '应用': '存储优化、计算加速' }, '可计算性': { '定义': '支持向量运算和相似度计算', '例子': '国王 - 男人 + 女人 ≈ 女王', '应用': '类比推理、语义运算' } }

3.词Embedding

  那我们假设我们有三个维度,那这个三个维度呢,其实可以对应于这个词的三种意思的考量的不同的方向。那比如说呢我们三个维度的第一个维度呢是它的可爱程度。那第二个维度呢是它体型的大小。第三个维度呢是它的权力等级。那比如说我们以小猫为例,那小猫的话它的可爱程度呢是非常高的。我们打0点9分,那满分是一分啊,那体型的大小呢它是比较小的,我们打0点2分,权利呢我们打0.1分。那这样呢它的向量呢就是0.9、0.

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/18 14:59:57

全球气候大会资料处理:HunyuanOCR整理各国提交的书面承诺

全球气候大会资料处理&#xff1a;HunyuanOCR如何高效解析各国书面承诺 在联合国气候变化大会的筹备现场&#xff0c;秘书处工作人员正面临一项重复而艰巨的任务&#xff1a;将来自195个缔约方提交的纸质或扫描版“国家自主贡献”&#xff08;NDC&#xff09;文件逐一录入系统。…

作者头像 李华
网站建设 2026/3/23 11:36:00

【性能飙升300%】:优化C#自定义集合表达式求值的7种方法

第一章&#xff1a;C#自定义集合表达式求值的性能挑战 在现代C#应用程序开发中&#xff0c;开发者经常需要对自定义集合进行复杂的表达式求值操作。这些操作通常涉及LINQ查询、动态表达式树解析以及反射机制&#xff0c;虽然提供了极大的灵活性&#xff0c;但也带来了显著的性能…

作者头像 李华
网站建设 2026/3/19 1:45:03

停车场管理系统改进:HunyuanOCR识别入场券二维码及文字

停车场管理系统改进&#xff1a;HunyuanOCR识别入场券二维码及文字 在城市交通枢纽、大型商超或机场周边的停车场里&#xff0c;一个看似简单的问题常常让运营方头疼不已&#xff1a;一张皱巴巴、反光严重甚至被手指遮挡了一角的纸质入场券&#xff0c;能否被系统准确“读懂”&…

作者头像 李华
网站建设 2026/3/26 12:46:43

司法公开透明:判决书PDF OCR识别上线裁判文书网

司法公开透明&#xff1a;判决书PDF OCR识别上线裁判文书网 在数字政府建设不断提速的今天&#xff0c;公众对司法公开的期待早已不止于“能看”&#xff0c;而是要求“可搜、可查、可分析”。然而长期以来&#xff0c;大量历史判决书以扫描图像形式封存在档案库中——它们清晰…

作者头像 李华
网站建设 2026/3/22 19:51:24

知识产权维权:盗版书籍封面OCR识别发起侵权诉讼

知识产权维权&#xff1a;盗版书籍封面OCR识别发起侵权诉讼 在电商平台和社交网络上&#xff0c;一本售价39元的《高等数学》教材月销过万&#xff0c;价格不到正版一半&#xff1b;封面看似正规&#xff0c;出版社名称却错印成“清化大学”——这已不是简单的印刷瑕疵&#xf…

作者头像 李华
网站建设 2026/3/25 11:16:36

揭秘C#中的不安全类型:如何高效操作内存并避免常见陷阱

第一章&#xff1a;揭秘C#不安全类型的本质与应用场景C#作为一门以类型安全和内存管理著称的语言&#xff0c;通常通过托管代码和垃圾回收机制保障程序的稳定性。然而&#xff0c;在某些对性能或底层操作有严苛要求的场景中&#xff0c;C#也提供了“不安全代码”&#xff08;un…

作者头像 李华