news 2026/1/27 10:47:19

产品经理学AI-9:AI黑话秒懂指南,Embedding

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
产品经理学AI-9:AI黑话秒懂指南,Embedding

文章主要介绍了AI大模型相关的专业术语和概念,包括序列化/反序列化、解析/解析器、数据块(chunk)、词元(Token)、向量、嵌入(Embedding)、检索增强生成(RAG)、提示词、温度、TOP P采样、大型语言模型(LLM)、预训练和微调等。这些是理解和学习AI大模型的基础知识,帮助初学者理解行业术语,避免被专业术语吓退,为深入学习大模型奠定基础。


最近一直在学习AI相关的课程,课程前前后后说了很多专业名词,有时候光听到名词,觉得特别高大上,但是听了老师的讲解后也会立马明白。想到可能有些也人跟以前的自己一样,被这些“行业黑话”给吓退。

于是,尝试着整理一下,分享给更多的人,避免大家被黑话挡在学习的门外。以下只是一部分,后续在学习过程中会持续更新。

1、序列化(Serialization)

是指将数据结构或对象状态转换为可以存储(例如保存到文件、内存缓冲区)或传输(例如通过网络发送)的格式的过程。

2、反序列化(Deserialization)

将序列化的数据还原为原始的数据结构或对象。

3、解析(Parsing)

将一段输入(通常是字符串或字节流)按照某种规则分解并理解其结构和含义的过程,简单来说解析就是:理解结构+提取信息。比如输入2025-11-19,解析为年=2025,月=11,日=19

4、解析器(Parser)

用于分析输入的文本或数据流,并根据特定的语法规则将其转换为结构化的表示形式。

5、块(chunk)

将数据、任务或资源划分为较小的、可管理的部分。这种“分块”策略广泛应用于内存管理、文件处理、网络传输、大模型推理等多个领域。

6、词元(Token)

Token 是文本经过分词器(Tokenizer)处理后得到的最小语义或子词单元,它不等于单词,也不等于字符,而是一种介于两者之间的表示方式,是模型理解、处理、生成文本的基本单位。

7、向量(Vector)

是表示数据(如词、句子、图像等)的核心数学工具。它的本质是一个有序的数值数组,能够将抽象对象转化为机器可计算的形式。在AI中的意义:向量是对现实世界对象(如“猫”、“快乐”、“一篇新闻”)的数值化编码,使得计算机能通过计算(如距离、相似度)来“理解”语义。

8、嵌入(Embedding)

是一种将复杂、高维的数据(如词语、图片、声音)转换为低维、连续的数值向量(即一系列数字)的技术。简单理解:就是一个数据翻译过程,将数据转化成计算机可以理解的数字。核心思想:计算向量与向量之间相似度,用于实际业务场景,比如搜索、推荐、图像识别、大语言模型等。举例:将您的查询和所有网页都转换为向量。然后,搜索引擎会找到与您的查询向量最相似的网页向量。

9、检索增强生成(RAG

Retrieval-Augmented Generation,检索增强生成, 是一种结合信息检索与大语言模型(LLM)生成能力的架构,用于解决大模型的以下核心问题:知识过时(训练数据截止于某时间点)、幻觉(Hallucination)(编造事实)、无法访问私有/专有数据(如公司文档、内部知识库)。通常大家会把它理解成一个外挂知识库。常见应用场景:企业知识库问答、法律/医疗咨询等。

10、提示词(Prompt)

是指用户输入给大语言模型(如ChatGPT)的指令、问题或一段文字,旨在引导模型生成符合期望的回复。再细分一点会分为系统提示词和用户提示词,这两种提示词是在与大型语言模型(特别是基于对话的模型如 ChatGPT)交互时的两个关键概念,它们共同决定了模型的最终输出。

系统提示词用于定义模型的角色、行为方式、回复风格和边界限制。

用户提示词用户在对话过程中直接输入给模型的每一条消息或问题用于表达用户当前意图,触发模型响应。

11、温度(Temperature)

用于控制LLM生成文本的多样性。在模型计算出下一个Token所有可能的概率分布后,

Temperature会调整这个分布的“平滑度”。

高Temperature:会让低概率的Token更容易被选中,使生成结果更具创造性,可能出现不连贯的词语。

低Temperature:会让高概率的Token权重更大,使生成结果更稳定、更符合训练数据,但会更保守。

12、TOP P

TOP P(核采样)设定一个概率阈值(P),然后从高到低累加所有Token的概率,直到总和超过P为止。模型只会在这个累加出来的“核心”词汇表中选择下一个Token。

高Top P候选词汇表较大,结果更多样。

低Top P:候选词汇表非常小,结果更具确定性。

举例说明:假设模型要完成句子:“今天天气真…”,模型预测的下一个词可能是:好(60%)、不错(30%)、糟(9%)、可乐(0.01%)。

高Temperature:会提升所有词的概率,使得“可乐”这个不相关的词也有机会被选中。

Top P (设为0.9):会选择概率总和达到90%的词。这里好(60%) +不错(30%) = 90%,所以模型只会从“好”和“不错”中选择,直接排除了“可乐”这种离谱的选项。

13、LLM

大型语言模型,是基于海量文本数据训练的深度学习模型,属于生成式AI的一种。它能理解和生成类人类的自然语言,常见模型如GPT系列、DeepSeek, Qwen等。

14、预训练(Pre-training)

预训练(Pre-training) 和 微调(Fine-tuning) 是两个核心阶段,共同构成“先通用、后专用”的模型训练范式。预训练是指模型在大量数据上进行训练,学习通用的语言表示和世界知识。

15、微调(Fine-tuning)

微调是指在预训练模型的基础上,使用特定任务的数据集对模型进行进一步的训练,使其适应特定任务。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取【保证100%免费】

读者福利:👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

👉4.大模型实战项目&项目源码👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

为什么分享这些资料?

只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取【保证100%免费】

读者福利:👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/28 6:17:28

Open-AutoGLM激励计划全攻略(从入门到精通的4个关键阶段)

第一章:Open-AutoGLM激励计划概述Open-AutoGLM激励计划是一项面向全球开发者的开源贡献激励项目,旨在推动自动化通用语言模型(AutoGLM)生态的发展。该计划通过提供算力支持、资金奖励和技术指导,鼓励开发者参与模型优化…

作者头像 李华
网站建设 2026/1/26 18:21:37

企业培训新方式:用Linly-Talker制作标准化教学视频

企业培训新方式:用Linly-Talker制作标准化教学视频 在企业数字化转型不断深入的今天,一个现实问题正困扰着越来越多的HR和培训管理者:如何以更低的成本、更快的速度,向遍布全国甚至全球的新员工传递统一、准确且生动的培训内容&am…

作者头像 李华
网站建设 2026/1/27 10:12:26

C语言static:小白也能懂的零基础教程

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个面向初学者的C语言教学程序,通过可视化方式展示static关键字:1. 用动画展示static变量的生命周期;2. 交互式修改代码即时查看效果&…

作者头像 李华
网站建设 2026/1/22 20:01:14

从实验室到企业级应用,Open-AutoGLM商业化落地难点全解析

第一章:Open-AutoGLM 开源商业化探索路径Open-AutoGLM 作为一款面向自动化生成语言模型任务的开源框架,正逐步探索其在商业化场景中的可行路径。通过开放核心算法与模块化设计,项目吸引了大量开发者参与共建,同时也为商业集成提供…

作者头像 李华
网站建设 2026/1/28 7:07:05

手机AI助手即将被淘汰?Open-AutoGLM带来5个颠覆性升级,你准备好了吗?

第一章:手机AI助手的终结与重生曾经被视为智能手机“未来入口”的AI助手,正经历一场深刻的变革。从早期依赖云端指令解析、固定唤醒词和有限场景响应,到如今深度集成大语言模型与本地化推理能力,手机AI助手正在摆脱“工具化”标签…

作者头像 李华
网站建设 2026/1/24 16:26:42

(开源不等于免费):Open-AutoGLM如何构建高壁垒商业护城河?

第一章:开源不等于免费——Open-AutoGLM的商业化觉醒在人工智能模型生态快速演进的今天,开源项目不再只是社区爱好者的试验田。以 Open-AutoGLM 为例,其核心代码虽遵循 Apache-2.0 协议公开,但商业化使用需遵守明确的授权条款&…

作者头像 李华