本文通过超过60张可视化图表,深入浅出地介绍了LLM Agent的领域、核心组件以及多智能体框架。内容涵盖了LLM的基本能力、记忆问题、增强型LLM、Agent组件框架、记忆类型、工具使用、规划方法以及多智能体协作等关键知识点,适合想要了解和学习大模型的小白和程序员阅读。
智能体时代:60+图解LLM Agent核心架构与未来
探索单智能体和多智能体的主要组件
LLM Agent 正变得越来越普及,似乎正在取代我们熟悉的"常规"对话式 LLM。这些惊人的能力并非轻易就能创造出来,需要许多组件协同工作。
本文包含超过 60 张定制可视化图表,你将探索 LLM Agent 的领域、其主要组件,并深入了解多智能体框架。
什么是 LLM Agent?
要理解什么是 LLM Agent,让我们先探索 LLM 的基本能力。传统上,LLM 只做下一个 token 的预测。
通过连续采样多个 token,我们可以模拟对话,并使用 LLM 给我们的查询提供更详尽的回答。
Token采样对话
然而,当我们继续"对话"时,任何 LLM 都会暴露出它的一个主要缺点:它不记得对话内容!
LLM记忆问题
LLM 经常失败的还有许多其他任务,包括基本的数学运算,如乘法和除法:
LLM数学运算失败
这意味着 LLM 很糟糕吗?绝对不是!LLM 不需要具备所有能力,因为我们可以通过外部工具、内存和检索系统来弥补它们的不足。
通过外部系统,可以增强 LLM 的能力。Anthropic 将此称为"增强型 LLM"(The Augmented LLM)。
增强型LLM
例如,面对数学问题时,LLM 可能决定使用适当的工具(计算器)。
LLM使用计算器
那么这个"增强型 LLM"就是 Agent 吗?不,可能有点是……
让我们从 Agent 的定义开始:
“Agent 可以被视为通过传感器感知其环境,并通过执行器作用于该环境的任何事物。”
— Russell & Norvig, AI: A Modern Approach (2016)
Agent 与其环境交互,通常由几个重要组件组成:
- 环境— Agent 交互的世界
- 传感器— 用于观察环境
- 执行器— 用于与环境交互的工具
- 效应器— "大脑"或决定如何从观察转化为行动的规则
Agen组件框架
这个框架用于各种与环境交互的 Agent,比如与物理环境交互的机器人,或与软件交互的 AI Agent。
我们可以将这个框架稍作调整,使其适用于"增强型 LLM"。
增强型LLM框架
使用"增强型" LLM,Agent 可以通过文本输入观察环境(因为 LLM 通常是文本模型),并通过使用工具(如搜索网络)执行某些操作。
为了选择要采取的行动,LLM Agent 有一个关键组件:它的规划能力。为此,LLM 需要通过思维链等方法能够"推理"和"思考"。
LLM推理能力
利用这种推理行为,LLM Agent 会规划出需要采取的行动。
Agent规划行为
这种规划行为使 Agent 能够理解情况(LLM)、规划下一步(规划)、采取行动(工具),并跟踪已采取的行动(记忆)。
Agent完整流程
根据系统设计,你可以创建具有不同程度自主性的 LLM Agent。
Agent自主性程度
不同的人有不同的看法,但一般认为,LLM 决定系统行为方式越多,系统就越具有"智能体特性"。
在接下来的章节中,我们将通过 LLM Agent 的三个主要组件——记忆、工具和规划——来探讨各种自主行为方法。
记忆
LLM 是健忘的系统,或者更准确地说,在与它们交互时根本不执行任何记忆操作。
例如,当你向 LLM 提问后紧接着又问一个问题,它不会记得前者。
LLM健忘特性
我们通常将这称为短期记忆,也称为工作记忆,它作为(近)即时上下文的缓冲区。这包括 LLM Agent 最近采取的行动。
然而,LLM Agent 还需要跟踪可能数十个步骤,而不仅仅是最近的行动。
短期记忆问题
这被称为长期记忆,因为 LLM Agent 理论上可能需要数十甚至数百个步骤需要被记住。
长期记忆需求
让我们探索几种给这些模型添加记忆的方法。
短期记忆
启用短期记忆最直接的方法是使用模型的上下文窗口,这本质上是 LLM 可以处理的 token 数量。
上下文窗口
上下文窗口通常至少为 8192 个 token,有时可以扩展到数十万个 token!
大型上下文窗口可用于跟踪作为输入提示一部分的完整对话历史。
对话历史跟踪
只要对话历史适合 LLM 的上下文窗口,这种方法就有效,是模拟记忆的好方法。然而,我们实际上并没有记住对话,而是"告诉" LLM 那段对话是什么。
对于上下文窗口较小的模型,或当对话历史很长时,我们可以使用另一个 LLM 来总结到目前为止发生的对话。
对话总结方法
通过持续总结对话,我们可以保持对话规模较小。这将减少 token 数量,同时只跟踪最重要的信息。
长期记忆
LLM Agent 中的长期记忆包括需要在较长时间内保留的 Agent 过去行动空间。
启用长期记忆的常见技术是将所有以前的交互、行动和对话存储在外部向量数据库中。
要构建这样的数据库,对话首先被嵌入为捕获其含义的数值表示。
向量嵌入过程
构建数据库后,我们可以嵌入任何给定的提示,并通过比较提示嵌入与数据库嵌入来在向量数据库中找到最相关的信息。
向量检索过程
这种方法通常被称为检索增强生成(RAG)。
长期记忆还可以涉及保留来自不同会话的信息。例如,你可能希望 LLM Agent 记住它在以前会话中所做的任何研究。
不同类型的信息也可以关联到不同类型的记忆来存储。在心理学中,有许多类型的记忆可以区分,但《Cognitive Architectures for Language Agents》论文将其中的四种与 LLM Agent 关联起来。
四种记忆类型
这种区分有助于构建智能体框架。语义记忆(关于世界的事实)可能与工作记忆(当前和最近的情况)存储在不同的数据库中。
工具
工具允许 LLM 与外部环境(如数据库)交互或使用外部应用程序(如运行的自定义代码)。
工具概述
工具通常有两个用途:获取数据以检索最新信息,以及采取行动如设置会议或订购食物。
要实际使用工具,LLM 必须生成符合给定工具 API 的文本。我们倾向于期望可以格式化为 JSON 的字符串,以便轻松输入代码解释器。
工具调用JSON
请注意,这不仅限于 JSON,我们也可以在代码本身中调用工具!
你还可以生成 LLM 可以使用的自定义函数,如基本的乘法函数。这通常被称为函数调用。
函数调用
一些 LLM 如果被正确和充分地提示,可以使用任何工具。工具使用是大多数当前 LLM 都具备的能力。
LLM工具使用能力
更稳定的工具访问方法是通过微调 LLM(稍后会详细介绍!)。
工具可以按固定顺序使用(如果智能体框架是固定的)……
固定顺序工具
……或者 LLM 可以自主选择使用哪个工具以及何时使用。如上图所示,LLM Agent 本质上是 LLM 调用的序列(但自主选择行动/工具等)。
自主工具选择
换句话说,中间步骤的输出会反馈到 LLM 中继续处理。
LLM调用循环
Toolformer
工具使用是增强 LLM 能力并弥补其不足的强大技术。因此,近年来关于工具使用和学习的研究迅速增加。
工具学习研究增长
不仅是提示 LLM 使用工具,许多研究还涉及专门针对工具使用训练它们。
最早的技术之一是Toolformer,这是一种训练后决定调用哪些 API 以及如何调用的模型。
它使用 [ 和 ] token 来指示工具调用的开始和结束。当给定提示时,例如"5 乘以 3 是多少?",它开始生成 token 直到到达 [ token。
Toolformer开始
之后,它生成 token 直到到达 → token,这表示 LLM 停止生成 token。
Toolformer停止
然后,工具被调用,输出被添加到到目前为止生成的 token 中。
Toolformer调用
] 符号表示 LLM 现可以在必要时继续生成。
Toolformer 通过精心生成包含许多工具使用的数据集来创建这种行为,模型可以在此基础上训练。对于每个工具,手动创建少样本提示并用于采样使用这些工具的输出。
Toolformer数据集生成
输出根据工具使用、输出和损失减少的正确性进行过滤。结果数据集用于训练 LLM 遵循这种工具使用格式。
自 Toolformer 发布以来,出现了许多激动人心的技术,如可以使用数千个工具的 LLM(ToolLLM),或可以轻松检索最相关工具的 LLM(Gorilla)。
无论如何,大多数当前 LLM(2025 年初)已训练为通过 JSON 生成轻松调用工具(如我们之前所见)。
模型上下文协议(MCP)
工具是智能体框架的重要组成部分,允许 LLM 与世界交互并扩展其能力。然而,当你有许多不同的 API 时,启用工具使用变得麻烦,因为任何工具都需要:
- 手动跟踪并提供给 LLM
- 手动描述(包括其预期的 JSON schema)
- 每当其 API 更新时手动更新
工具管理问题
为了使工具更容易在任何智能体框架中实现,Anthropic 开发了模型上下文协议(MCP)。MCP 标准化了天气应用和 GitHub 等服务的 API 访问。
它由三个组件组成:
- MCP Host— 管理连接的 LLM 应用(如 Cursor)
- MCP Client— 与 MCP server 维持 1:1 连接
- MCP Server— 向 LLM 提供上下文、工具和能力
MCP架构
例如,假设你希望某个 LLM 应用总结你仓库的最近 5 次提交。
MCP Host(与 client 一起)首先会调用 MCP Server 询问有哪些工具可用。
MCP查询工具
LLM 接收信息并可能选择使用工具。它通过 Host 向 MCP Server 发送请求,然后接收结果,包括使用的工具。
MCP使用工具
最后,LLM 接收结果并可以向用户解析答案。
MCP返回结果
这个框架通过连接任何 LLM 应用都可以使用的 MCP Server 使创建工具更容易。因此,当你创建 MCP Server 与 Github 交互时,任何支持 MCP 的 LLM 应用都可以使用它。
规划
工具使用允许 LLM 增加其能力。它们通常通过类似 JSON 的请求调用。
但是,在智能体系统中,LLM 如何决定使用哪个工具以及何时使用?
这就是规划的作用所在。LLM Agent 中的规划涉及将给定任务分解为可执行的步骤。
任务规划
这个计划允许模型迭代地反思过去的行为,并在必要时更新当前计划。
规划迭代
为了在 LLM Agent 中启用规划,让我们首先看看这种技术的基础,即推理。
推理
规划可执行步骤需要复杂的推理行为。因此,LLM 必须能够在规划任务下一步之前展示这种行为。
“推理” LLM 是那些倾向于在回答问题之前"思考"的模型。
推理LLM
我使用"推理"和"思考"这些术语比较宽松,因为我们可以争论这是类人思考还是仅仅将答案分解为结构化步骤。
这种推理行为可以通过大致两种选择启用:微调 LLM 或特定的提示工程。
通过提示工程,我们可以创建 LLM 应遵循的推理过程示例。提供示例(也称为少样本提示)是引导 LLM 行为的好方法。
少样本提示
这种提供思维过程示例的方法被称为思维链,可以启用更复杂的推理行为。
思维链也可以通过简单地说"让我们一步步思考"来在没有示例的情况下启用(零样本提示)。
零样本思维链
训练 LLM 时,我们可以给它包含思维类示例的足够数据集,或者 LLM 可以发现自己的思维过程。
一个很好的例子是 DeepSeek-R1,其中使用奖励来引导思维过程的使用。
DeepSeek-R1推理
更多关于推理 LLM 的信息,请参阅我的可视化指南。
推理与行动
在 LLM 中启用推理行为很好,但这不一定使其能够规划可执行步骤。
到目前为止,我们关注的技术要么展示推理行为,要么通过工具与环境交互。
推理vs工具使用
例如,思维链纯粹专注于推理。
最早结合这两种过程的技术之一是ReAct(Reason and Act)。
ReAct框架
ReAct 通过精心设计的提示工程实现这一点。ReAct 提示描述了三个步骤:
- Thought- 关于当前情况的推理步骤
- Action- 要执行的一组行动(例如工具)
- Observation- 关于行动结果的推理步骤
提示本身相当直接。
ReAct提示
LLM 使用这个提示(可作为系统提示使用)来引导其行为,在思想、行动和观察的循环中工作。
ReAct循环
它继续这种行为,直到某个行动指定返回结果。通过迭代思想和观察,LLM 可以规划行动、观察其输出并进行相应调整。
因此,这个框架使 LLM 能够展示比具有预定义固定步骤的 Agent 更自主的智能体行为。
反思
没有人,即使是带有 ReAct 的 LLM,也不会完美执行每项任务。失败是过程的一部分,只要你能反思那个过程。
ReAct 缺少这个过程,这正是Reflexion发挥作用的地方。Reflexion 是一种使用语言强化帮助 Agent 从先前失败中学习的技术。
该方法假设三个 LLM 角色:
- Actor— 根据状态观察选择和执行行动。我们可以使用思维链或 ReAct 等方法。
- Evaluator— 评估 Actor 产生的输出。
- Self-reflection— 反思 Actor 采取的行动和 Evaluator 生成的评分。
Reflexion框架
添加记忆模块来跟踪行动(短期)和自我反思(长期),帮助 Agent 从错误中学习并识别改进的行动。
类似且优雅的技术是SELF-REFINE,其中改进输出和生成反馈的行动被重复。
SELF-REFINE框架
同一个 LLM 负责生成初始输出、改进后的输出和反馈。
SELF-REFINE流程
有趣的是,这种自我反思行为(Reflexion 和 SELF-REFINE)与强化学习非常相似,其中基于输出质量给予奖励。
多智能体协作
我们探索的单 Agent 有几个问题:太多工具可能使选择复杂化、上下文变得太复杂、任务可能需要专业化。
相反,我们可以转向多智能体,这是多个 Agent(每个都有工具、记忆和规划)彼此及其环境交互的框架:
多智能体框架
这些多智能体系统通常由专业化 Agent 组成,每个都有自己的工具集,由监督者监督。监督者管理 Agent 之间的通信,可以将特定任务分配给专业化 Agent。
多智能体监督者
每个 Agent 可能可以使用不同类型的工具,但也可能有不同的记忆系统。
实际上,有许多多智能体架构,其核心有两个组件:
- Agent 初始化— 如何创建个体(专业化)Agent?
- Agent 协调— 如何协调所有 Agent?
多智能体核心组件
让我们探索各种有趣的多智能体框架,并强调这些组件是如何实现的。
人类行为的交互模拟
可以说是最有影响力、坦白说非常酷的多智能体论文之一是《Generative Agents: Interactive Simulacra of Human Behavior》。
在这篇论文中,他们创建了模拟可信人类行为的计算软件 Agent,称之为生成式 Agent。
生成式Agent
每个生成式 Agent 获得的配置使它们以独特方式行为,有助于创造更有趣和动态的行为。
每个 Agent 用三个模块初始化(记忆、规划和反思),非常像我们之前看到的 ReAct 和 Reflexion 的核心组件。
生成式Agent模块
记忆模块是这个框架中最重要的组件之一。它存储规划和反思行为,以及到目前为止的所有事件。
对于任何给定的下一步或问题,记忆被检索并根据其新近度、重要性和相关性进行评分。最高评分的记忆与 Agent 分享。
记忆检索评分
它们一起允许 Agent 自由地进行行为并彼此交互。因此,Agent 协调很少,因为它们没有特定的目标要努力达成。
Agent交互示例
这篇论文中有太多精彩的信息片段,但我想强调他们的评估指标。
他们的评估涉及 Agent 行为的可信度作为主要指标,由人类评估者评分。
评估指标
它展示了观察、规划和反思在一起对生成式 Agent 的性能有多重要。如之前探索的那样,规划没有反思行为就不完整。
模块化框架
无论你选择什么框架来创建多智能体系统,它们通常由几个成分组成,包括其配置、环境感知、记忆、规划和可用行动。
模块化框架组件
实现这些组件的流行框架是 AutoGen、MetaGPT 和 CAMEL。然而,每个框架在 Agent 之间的通信方式上略有不同。
以 CAMEL 为例,用户首先创建问题并定义 AI User 和 AI Assistant 角色。AI user 角色代表人类用户,将引导过程。
CAMEL角色定义
之后,AI User 和 AI Assistant 将通过彼此交互来协作解决查询。
CAMEL协作过程
这种角色扮演方法使 Agent 之间能够协作通信。
AutoGen 和 MetaGPT 有不同的通信方法,但都归结为这种协作性质的通信。Agent 有机会彼此参与和交谈,以更新其当前状态、目标和下一步。
在过去一年,特别是最近几周,这些框架的增长是爆炸性的。
框架增长趋势
2026 年将是真正激动人心的一年,这些框架将继续成熟和发展!
最后
2026年技术圈的分化愈发明显:降薪裁员潮持续蔓延,传统开发、测试等岗位大批缩水,不少从业者陷入职业焦虑;与之形成鲜明对比的是,AI大模型相关岗位迎来疯狂扩招,薪资逆势飙升150%,大厂更是直接开出70-100W年薪,疯抢具备实战能力的大模型人才,甚至放宽年龄限制,只求能快速落地技术、创造价值!
很多程序员、职场新人纷纷入局大模型领域,绝非盲目跟风,而是实实在在看到了不可替代的价值优势,这也是2026年最值得抓住的职业风口:
1、窗口期红利,入门门槛友好:不同于成熟赛道的“内卷式招聘”,2026年大模型人才缺口巨大,简历只要达标(掌握基础AI应用+具备简单项目经验),年龄、学历均非硬性要求,小白可快速入门,转行程序员也能无缝衔接;
2、技术可复用,上手速度翻倍:如果你有前后端开发、测试、数据分析等基础,在大模型落地、系统部署、Prompt工程等环节会更具优势,无需从零开始,复用原有技术能力就能快速进阶;
3、懂业务更吃香,竞争力翻倍:单纯懂技术已不够,2026年大厂更看重“技术+业务”的复合型人才,有垂直领域(金融、医疗、工业等)经验者,能精准定位模型落地痛点,薪资比纯技术岗高出30%以上;
更重要的是,即便没有转型需求,用AI大模型工具为工作赋能、提升效率,也已经成为80%企业的硬性要求——不会用大模型提效,未来很可能被行业淘汰!
那么2026年,小白/程序员该如何高效学习大模型?
很多人想入门大模型,却陷入两大困境:要么到处搜集零散资料,不成体系,越学越懵;要么被收费高昂的课程割韭菜,花了钱却学不到实战技能,白白浪费时间走弯路。
今天就给大家精心整理了一份2026年最新、免费、系统化的AI大模型学习资源包,覆盖从零基础入门到商业实战、从理论沉淀到面试通关的全流程,所有资料均已整理归档,无需拼凑,直接领取就能上手学习,小白可照做,程序员可进阶!
👇👇扫码免费领取全部内容👇👇
1、大模型系统化学习路线
这份学习路线结合2026年行业趋势和新手学习规律,由行业专家精心设计,从零基础到精通,每一步都有明确指引,帮你节省80%的无效学习时间,少走弯路、高效进阶,避免踩坑。
2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。
3、大模型学习书籍&电子文档
涵盖2026年最新技术要点,包括基础入门、Transformer核心原理、Prompt工程、RAG实战、模型微调与部署等内容
4、AI大模型最新行业报告
报告包含腾讯、阿里、甲子光年等权威机构发布的核心内容,还有2026年中文大模型基准测评报告、AI Agent行业研究报告等,帮你站在行业前沿,把握技术风口。
5、大模型项目实战&配套源码
项目包含Deepseek R1、GPT项目、MCP项目、RAG实战等热门方向,还有视频配套代码,手把手教你从0到1完成项目开发,既能练手提升技术,又能丰富简历,为求职和职业发展加分。
6、2026大模型大厂面试真题
2026年大模型面试已全面升级,不再单纯考察基础原理,而是转向侧重技术落地和业务结合的综合考察,很多程序员和新手因为缺乏针对性准备,明明技术不错,却在面试中失利。
适用人群
四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身:基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例:如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇
7、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】