本文深入剖析了2026年AI Agent的内部架构,从最小循环ReAct出发,详细解析了五件套组件、CodeAct范式升级、三层协议栈(MCP/A2A/AG-UI)、四大主流沙箱以及六大开发框架。每一层组件各司其职且接口清晰,最终形成一套可验证的执行系统,推动AI Agent从"prompt大法"转向工程化实践。
AI 圈观察
【核心导读】上一篇拆了 Agent 的"分类坐标系"。这一篇把一个 Agent 从壳子里掀开看里面——从 2022 年那个三步循环(ReAct)开始,往上铺五件套组件、CodeAct 范式升级、MCP/A2A/AG-UI 三层协议栈、4 家主流沙箱(Cloudflare/Daytona/Modal/Vercel)、6 大开发框架(LangGraph/CrewAI/Agent SDK 系列)。每一层在干一件不同的事,相邻两层之间有清晰的接口。
上一篇拆的是 Agent 的"分类"。这一篇拆的是 Agent 的"内脏"。
打开
如果给你一台 2026 年的 Agent,让你把外壳拧开——你会看到一个分层很清晰的系统:
┌────────────────────────────────────────────┐│ 第 6 层 评估层(Outcomes / Dreaming) │├────────────────────────────────────────────┤│ 第 5 层 开发框架(LangGraph / Agent SDK) │├────────────────────────────────────────────┤│ 第 4 层 协议层(MCP / A2A / AG-UI) │├────────────────────────────────────────────┤│ 第 3 层 执行环境(沙箱:Cloudflare/Vercel) │├────────────────────────────────────────────┤│ 第 2 层 五件套(规划/记忆/工具/执行/反馈) │├────────────────────────────────────────────┤│ 第 1 层 最小循环(ReAct:思考→行动→观察) │└────────────────────────────────────────────┘下面一层一层拆。
循环
Agent 的最小内核——2022 年 Yao 等人提出的 ReAct——三步循环:
Thought(思考)→ Action(行动)→ Observation(观察) ↑ │ └──────────────────────────────────┘ loop until done模型先想一句话(“用户要订餐,我应该先查菜单”),然后执行一个动作(调用 search_menu 工具),拿到结果(一份 JSON),再回到想(“菜单有了,现在要看推荐”),如此循环到任务完成。
这套三步循环看起来朴素到惊人——但它是 2026 年所有 Agent 系统的最底层公共结构。Claude Code 在跑、Cursor 在跑、AutoGen 在跑、CrewAI 在跑、ChatGPT Agent 在跑。
四年过去,Agent 的样子在变,但循环没变——因为它解决的是"如何让 LLM 在不确定环境里持续做决策"这个最本质的问题。
五件套
ReAct 只是循环的骨架。要让 Agent 真正能干活,需要把 五件套组件焊在循环里。这五件套是 arxiv 2026 年 5 月那篇 code agent 综述总结的标准命名:
| 组件 | 作用 | 典型形态 |
|---|---|---|
| Planning(规划) | 把长任务拆成可执行步骤 | Plan-and-Execute、Tree of Thoughts |
| Memory(记忆) | 跨步骤/跨会话持有状态 | Working / Semantic / Experiential |
| Tools(工具) | 把外部世界变成可调用函数 | Function Calling / MCP Servers |
| Executor(执行) | 真正去做事 | Bash / Code Interpreter / Browser |
| Reflection(反馈) | 看结果、修方案 | Reflexion / Self-Refine |
五件套不是平铺的。它们围绕循环组织:
Planning 在循环开始时跑一次
(生成大纲)或每步动态跑(适应变化)
Memory 在每个 Observation 之后写
、在每个 Thought 之前读
Tools 是 Action 的具体载体
Executor 把 Action 翻译成系统调用
Reflection 在 N 步之后回看
、决定要不要改方向
缺哪一件 Agent 都跑不远:没有 Planning 就是聊天机器人;没有 Memory 就忘事;没有 Tools 就只会写字;没有 Executor 就空想;没有 Reflection 就一条路撞死。
记忆
Memory 这一件最复杂,2026 年已经分化成 5 种:
| 类型 | 中文 | 存在哪 | 寿命 |
|---|---|---|---|
| Working | 工作记忆 | Context window 里 | 单次会话 |
| Semantic | 语义记忆 | 向量库(Pinecone/Chroma) | 永久 |
| Experiential | 经验记忆 | 案例库 + scratchpad | 永久 |
| Shared | 共享记忆 | 多 Agent 之间的消息总线 | 任务级 |
| External | 外置记忆 | 数据库 / 文件系统 / KV | 永久 |
2026 年 5 月 Anthropic 加了第 6 种——叫Dreaming:定期反思历史会话、提炼模式、固化到 orchestration memory 里。“agent 不只完成任务,还报告它学到了什么”。
数据库领域里 Databricks MemEx(4 月发)走得更彻底——它把记忆做成"代码即作用域":Agent 写的每行代码、定义的每个变量都活在一个持久化的 Python kernel 里,跨步骤不消失。
Claude Code 还有一个更朴素的方案——CLAUDE.md+memory.md两个本地 markdown 文件,分别记"使用说明"和"边干边记的笔记"。简单粗暴但有效。
CodeAct
2026 年最值得记住的一个范式变化:从"工具调用"到"代码即行动"。
老路线(ReAct + JSON tool calling):
{ "tool": "search_menu", "args": {"restaurant_id": 42}}模型每次只能调一个工具,参数必须严格符合 schema,多步调用要在外层串。
新路线(CodeAct,Wang et al. 2024 提出):
menu = search_menu(restaurant_id=42)filtered = [d for d in menu if d.price < 100]sorted_dishes = sorted(filtered, key=lambda d: d.rating, reverse=True)return sorted_dishes[:3]模型直接 生成可执行 Python,所有"工具"自动变成 Python 函数,循环、条件、变量、错误处理全部走 Python 原生语义。
这个范式 2026 年已经被两家头部公司做成生产特性:
Anthropic Programmatic Tool Calling(PTC)
:跨请求复用同一个 container,状态持久化
Cloudflare Code Mode
:类似 PTC 但每次新容器、无状态
效率提升非常明显——同样一个数据分析任务,CodeAct 比 JSON 工具调用少烧 60-80% 的 token,因为不用反复在外层拼接中间结果。
CodeAct 是 2026 年企业级 Agent 的事实标准。
协议
把视角从单 Agent 往外拉——Agent 要跟工具谈、跟其它 Agent 谈、跟用户谈。这就有了三层协议:
| 协议 | 解决 | 发起者 | 状态 |
|---|---|---|---|
| MCP | Agent ↔ Tool | Anthropic(2024-11 开源) | 97M 下载、6000+ apps、已捐 Linux Foundation |
| A2A | Agent ↔ Agent | Google(2025) | 50+ 启动伙伴、Agent Cards 内置安全 |
| AG-UI | Agent ↔ User | CopilotKit | Google/AWS/Microsoft/LangChain/Mastra 都已采纳 |
MCP 是当前最重要的协议。它定义了一个 client-server 接口——Agent 是 client,工具是 server,中间走标准 JSON-RPC。MCP server 现在有 6000+ 个,覆盖:
- 数据库(Postgres、MongoDB、Snowflake)
- SaaS(GitHub、Slack、Linear、Notion、Stripe、Jira)
- 浏览器(Playwright)
- 文件系统、代码执行环境
- 公司内部工具(通过 MCP Tunnels 暴露给云端 Agent,不需要公网)
MCP 的隐性变化:它把"工具集成"从工程问题变成了配置问题——不再需要为每个新工具写一个 adapter,符合 MCP 协议就直接接。
A2A 解决的是 Agent 之间互通。两个不同公司、不同框架的 Agent,靠 Agent Card(描述自己能干什么)互相发现、互相 handoff。
AG-UI 解决 Agent 怎么把"我在干什么"实时流给前端——状态更新、工具调用进度、人工确认请求等。
沙箱
Action 真正执行的地方是沙箱。2026 年 5 月 Anthropic 正式把 Claude Managed Agents 的 sandbox 层开放给第三方,四家成了官方推荐:
| 提供商 | 隔离方式 | 主打场景 |
|---|---|---|
| Cloudflare | microVM + zero-trust 网络 | 大规模、outbound 流量可控 |
| Daytona | 完整 VM + SSH/preview URL | 长会话、可暂停可恢复、有状态 |
| Modal | 容器 + CPU/GPU scalable | AI 工作负载、训练/推理友好 |
| Vercel | microVM + VPC peering | 凭据网络注入、credential 不进 VM |
microVM 是 2026 年的默认隔离方案——基于 Firecracker / libkrun / Cloud Hypervisor,启动几百毫秒、内存开销几十 MB,比传统 VM 轻、比容器安全。
Claude Code 自己用的是 git worktree——一种更轻量的隔离:在同一仓库里开多个工作目录,让 Agent 在隔离分支上跑而不污染主分支。Daytona、Maestro 都基于这个模式做了桌面版编排。
沙箱不只是安全栅栏——它也是 Agent 的"身体":
- 没有沙箱:Agent 只能输出文字
- 有沙箱:Agent 能跑 bash、改文件、起服务、安装包
形态决定 Agent 能做的事,沙箱决定形态。
框架
把上面所有层封装成可用的开发体验——这是框架的工作。2026 年 6 大主流:
| 框架 | 思路 | 编排模型 | 模型绑定 |
|---|---|---|---|
| LangGraph | 状态机即 Agent | Directed graph + 条件边 | 模型无关 |
| OpenAI Agents SDK | Handoff 模式 | 显式 handoff | OpenAI 限定 |
| CrewAI | 角色扮演 + 任务编排 | role-based crews | 模型无关 |
| AutoGen / AG2 | 对话即编排 | conversational GroupChat | 模型无关 |
| Google ADK | 层级 agent 树 | hierarchical tree | Gemini 优化 |
| Claude Agent SDK | Tool-use chain + sub-agents | 极简循环 | Claude 限定 |
选型口径很简单:
要状态机 + 时间旅行调试
→ LangGraph
已经在 OpenAI 生态、要最快出 demo
→ OpenAI Agents SDK
要多角色协作、prompt 即代码
→ CrewAI
企业内多 Claude 实例
→ Claude Agent SDK + Managed Agents
重 Gemini 生态
→ Google ADK
框架的趋势是越来越薄——因为底层模型变强后,"复杂的 orchestration 逻辑"逐渐被模型自身能力消化。Claude Agent SDK 是这个趋势的极致:一个最小循环 + tool-use,剩下都靠 Claude 自己 reason 出来。
评估
最后一层——也是最容易被忽略的一层。
没有评估的 Agent 都是玩具。
2026 年的评估方法分三类:
External eval
(外部评估):跑一套预定义任务集,看通过率。代表:DeepEval、langfuse、Braintrust
Grading agent
(评分 Agent):让另一个 Agent 评分 Agent 的输出。代表:LangChain Evaluator
Built-in rubrics
(内置评分标准):Anthropic Outcomes 把"成功标准"做成可在编排层定义的对象,让 Agent 自评
最值得关注的是 Anthropic 的 Outcomes。它把传统"任务完成 = 模型自己说完成了"这个含糊判定,换成"任务完成 = 满足一组明确 rubric"——比如 所有测试通过、改动行数 < 100、不修改主分支。这套东西在 5 月 6 日的 Code with Claude 发布。
配合 Dreaming(记忆反思),Anthropic 实际上把"循环 + 评估 + 学习"做成了一个闭环:跑完一轮 → grade → 把经验写回 memory → 下一轮更好。
这是 2026 年 Agent 工程化最关键的一个转向:从"prompt 大法" 转向 “可验证的执行系统”。
假如你从2026年开始学大模型,按这个步骤走准能稳步进阶。
接下来告诉你一条最快的邪修路线,
3个月即可成为模型大师,薪资直接起飞。
阶段1:大模型基础
阶段2:RAG应用开发工程
阶段3:大模型Agent应用架构
阶段4:大模型微调与私有化部署
配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇