如今大行业里大模型发展势头十足,Vibe Coding、Harness Engineering这类全新开发模式也陆续落地投入使用。
其实各类AI具备的高阶实用能力,归根到底都是依托大模型本身的基础能力搭建而来。吃透大模型里的基础核心概念,我们在实际落地应用的时候,才能做到得心应手运用自如。
目录
1、什么是Token
2、什么是向量和Embedding
3、什么是Attention注意力机制
4、什么是模型训练
5、什么是模型推理
6、什么是上下文窗口
1、什么是Token
自从OpenClaw问世之后,市场中对于Token的使用场景越来越多。往后市面上每一个AI Agent运行运转,都会持续消耗Token,就像日常各类电器工作都需要耗费电量一样,Token已然成为支撑AI Agent正常运转的核心燃料。
那到底什么是Token,它的中文叫法是词元。说得直白一点,Token就是大模型能够识别读懂的最小文字片段。我们人类日常书写表达文字,大模型则依靠读取Token来理解内容。
拿一段简单代码举例
input_ids = tokenizer.encode("Thank you very", return_tensors="pt")输出:[10449,345,845]最后输出的这三组数字,对应的就是这段内容拆分出来的Token。
2、什么是向量和Embedding
Embedding翻译过来就是嵌入,单从字面意思就能很好理解,就是把一个个单独独立的文字符号,融入到具备逻辑关联的数据空间当中。
简单来说Embedding就是把单纯的符号数字编号,转换成带有逻辑关联、存在远近区分的坐标数据。
这么做的实际用处,就是把现实世界里零散杂乱的数据,映射到高维数据空间当中,依靠数据在空间内的距离远近,来对应现实事物之间的相似程度。意思相近的词句,对应的向量距离也会更近。
向量是由多组数值组合而成的数据序列,能够体现出数据的数值大小与整体走向。
市面上各类AI框架,基本都是由向量和算子组合搭建而成,不管是模型训练还是日常推理,本质都可以看作是向量检索匹配和向量运算的过程。
模型在不断优化学习的过程中,会自主梳理理清各类词句之间的语义联系,再把这些联系转化成向量空间里的几何形态。向量是AI用来认知理解现实世界的基础数据形式,也是AI运转运作的核心根本。
3、什么是Attention注意力机制
注意力机制是深度学习领域里十分关键的核心技术,设计思路就是模仿人类接收处理信息时,主动筛选重点内容的思维习惯。
这项技术能够灵活调配权重占比,精准锁定输入信息里关联性最强的内容,以此提升模型运行效率和判断精准度。
就拿我们日常用眼观察事物来说,本身就是最典型的Attention机制,不管是看图片还是读文字,我们都会主动把有限的精力,放在核心关键信息上面。
Attention机制主要分为三个组成部分,我们用去图书馆查找书籍这件事来通俗讲解
Query(Q)就是模型日常接收的输入内容,对应我们想要找寻的书籍名称
Key(K)主要用来判断和Query向量之间的关联程度,对应图书馆里书籍的分类标签
Value(V)负责整理输出最终对应的相关内容,对应书籍本身完整内容
整套运行逻辑可以用公式概括:Attention(Q, K, V) = softmax(QK^T / √d_k) V
整体可以理解为整合各类相关V类内容,按照和K、Query之间的关联程度划分权重再汇总计算,权重高低直接由两者向量匹配程度决定。
4、什么是模型训练
AI模型整体由参数和算法两大板块组成,依靠接收外部输入特征,最终输出对应的预判结果。
特征就是从输入内容里,提取实物本身独有的关键信息,整理转化为数字化内容。
参数是模型运算过程中需要用到的数值数据,全部依靠长期训练调整得出。算法也可以称作模型结构,规定好了依托特征与参数完成运算推算的具体方式。预判结果就是模型最终输出的内容。
所谓训练,就是不断对比模型输出结果和预期标准之间的差距,同步调整修改模型内部参数,一步步缩小两者之间的差值,而损失也就是Loss,就是训练过程中需要不断优化缩小的差值,一般都会采用梯度下降法来降低损失数值。
参数更新就是根据测算出来的损失数值调整内部参数,达到缩减误差的目的。
简单梳理训练完整流程就是录入海量数据、做出预判结果、计算误差差值、调整内部参数,整套流程反复运行数万亿次。
主流大模型完整训练流程主要分为三个阶段,分别是预训练Pre-training、有监督微调SFT,还有依托人类反馈完成的强化学习RLHF。
预训练阶段,模型会从海量没有标注信息的文本数据里学习各类基础知识,这个阶段往往需要几十亿甚至上百亿Token的文本素材,训练目标也十分简单,只需要完成预判下一个文字内容即可。
有监督微调主要作用就是优化完善模型能力,让模型后续推理过程中,能够更好遵从各类指定指令开展工作。这个阶段使用的都是人工整理标注好的指令数据集,向模型输入对应指令或者专属数据格式,模型输出符合要求的回复内容。
强化学习能够让大模型更贴合实际使用需求,输出内容也更贴合使用规范,核心目的就是让大模型的输出逻辑,贴合大众使用习惯和正确价值导向,想要深入了解可以查看往期强化学习相关内容。
5、什么是模型推理
模型推理就是调用已经完成全部训练的成熟模型,根据用户提交的需求指令,快速运算得出精准回复内容。简单区分就是,训练是搭建打造模型的过程,推理就是日常使用模型实现功能的过程。
我们每次向模型发送使用请求,后台都会走完一整套完整推理流程
- 整体流程划分为Prefill全量处理和Decode增量生成两大环节
- 先把用户输入的内容统一转化为Token格式
- 将转换完成的Token传入大模型完成全量运算,推算出后续对应的Token内容,同时生成完整KV Cache数据
- 把刚刚推算出来的全新Token再次录入模型,结合已经生成好的KV Cache继续推算下一组内容,同步更新刷新KV Cache
- 重复以上步骤完成自主逐一生成内容,直到生成内容结束为止
总结来说推理就是先用Prefill一次性处理完所有输入内容,再依靠Decode逐个生成输出内容,而KV Cache的存在,能够让Decode环节省去重复运算步骤,大幅提升运行速度。
整体来看模型参数规模越大,智能程度越高,但随之而来的就是运行速度变慢、使用成本增加。像KV Cache优化、量化处理、批处理这些主流优化方式,本质都是在兼顾模型智能程度的同时,平衡运行速度与使用成本。
6、什么是上下文窗口
我们可以把大模型比作一位学识渊博、思维灵活的资深顾问,但是这位顾问存在严重的记忆断层问题,每次交流结束之后,就会彻底忘记沟通对象、聊天内容以及此前做出的各类回应。
大语言模型同样存在这样的局限,即便自身储备海量知识内容,依旧会被有限的上下文窗口限制,没办法在多轮对话里连贯整合过往信息,记忆模式类似记忆短暂的鱼类生物。
上下文窗口的判定标准十分明确,输入Token总量加上输出Token总量,不能超出窗口设定上限。
上下文窗口也是评判大模型综合实力的核心硬性标准,直接决定了模型能够承接处理多大体量的工作任务,想要深入学习可以查阅上下文工程相关内容。
大语言模型本身不存在固定记忆状态,就算配备超大规格上下文窗口,想要让智能体在多轮交互、任务执行以及不同使用场景中,稳定留存调取过往信息,依旧需要搭配专属记忆系统配合使用。
结语
本篇内容详细讲解了六大类和大模型息息相关的基础专业概念,其实抛开各类复杂原理,大模型从头到尾只在做一件事,那就是精准预判下一个即将出现的Token。
文字拆分、内容嵌入、注意力运算、模型训练、日常推理还有上下文窗口设置,所有技术优化与架构设计,最终目的都是为了让这份预判结果变得更精准、运算速度更快、能够承接更大规模的业务需求。
根据Gartner相关行业预测,等到2026年年底,市面上百分之四十的企业应用程序,都会升级改造为适配专属任务的Agent工作流统筹运行平台。
Agent的核心作用,就是把大模型单纯的文字预判能力,转化成能够落地现实场景的实际行动,依靠精准提示词引导大模型自主完成任务拆分、挑选适配工具、执行对应操作、复盘优化调整,一步步推进直至完整完成全部任务。