news 2026/5/21 20:50:19

智能体元年:一篇讲清楚 Agent 到底是什么?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
智能体元年:一篇讲清楚 Agent 到底是什么?

2026 年才过了五个月,Agent 这个词已经炸了。

年初 Openclaw 火出圈,一个开源的多 Agent 协作框架,让几个 AI 同时干活、互相检查。近期,又看到一个 OpenHuman 冒出来,要让 Agent 不只是调 API,而是像人一样操作浏览器、读写文件、跨 App 工作。

然后是每天在用的工具,Claude Code、Cursor、Codex。你在终端说一句"帮我重构这个模块",它自己读文件、改代码、跑测试、提交 commit。这不是"AI 辅助编程",这是一个自主运行的智能体在干活。

问题来了。

大家都在说 Agent。但 Agent 到底是什么?编排、ReAct、MCP、Tool Calling、Skills、Harness……这些词满天飞,到底哪个是哪个?怎么串起来?

这篇文章试着用一张地图来梳理 Agent 的全貌:冯诺依曼架构。读完你应该能跟任何人解释清楚:

  • Agent 由哪几个零件构成
  • 每个零件解决什么问题
  • 编排 / MCP / Tool / Skills / ReAct / Harness 这些概念各自属于哪个零件
  • 为什么 2026 年是智能体元年

这篇是我 Agent 研究系列的第一篇,目标是画一张全局地图。后续每篇会深挖一个模块。


全局地图:用冯诺依曼看懂 Agent

1945 年,冯诺依曼定义了现代计算机的五个组件:运算器、控制器、存储器、输入设备、输出设备。七十年了,你的 MacBook 和云服务器底层还是它。我始终觉得,我们没法脱离已有的认知去构建新的东西,而Agent,就是验证了这么个逻辑的产物。它,就应该出现在当下的这么个时候。对比来看,Agent 的架构跟它存在严整的对应。不是类比,是同构:

Agent 的完整定义,工业界公认来自 OpenAI 的 Lilian Weng:

Agent = LLM + 规划 + 记忆 + 工具使用

这个公式里的每一项,恰好对应了冯诺依曼机器的一个组件。把 LLM 看作一颗 CPU,Agent 就是这台 CPU 装上操作系统、内存、硬盘、总线和外设之后,变成的一台完整计算机。

下面逐个拆解。


LLM:运算器

先看最核心的零件:大语言模型

在冯诺依曼架构里,运算器负责所有算术和逻辑运算。在 Agent 里,LLM 负责所有文本推理和生成。它是整个系统的"发动机",没有它 Agent 就不存在。

但单独一颗 LLM,是一个只有运算器、没有其他组件的半成品。它每次回答都是独立的。记不住你上一轮说了什么,碰不到外部世界,没法查资料,更没法操作文件。

打个比方:单独的 LLM 像一个智商极高的天才,但被关在一个没有窗户、没有网络、没有笔记本的房间里。你推门问一句,他答一句。你关上门再进来,他已经忘了刚才聊过什么。

从 LLM 到 Agent,就是给这个天才装上眼睛、双手、笔记本和日程表的过程。


编排:控制器

如果 LLM 是心脏,编排(Orchestration)就是 Agent 的大脑皮层,负责拆解任务、调度工具、管理状态、决定"下一步做什么"。

编排层的核心模式是ReAct(Reasoning + Acting):

这是一个控制循环。跟 CPU 的取指-译码-执行-写回一样,Agent 在跑 Thought → Action → Observation 的主循环。区别只在于指令不再是机器码,而是自然语言推理。

工程落地上,编排有三种主流实现方式:

方式代表特点
硬编码 Pipeline手写 if-else / 状态机完全可控,但不够灵活
Chain 模式LangChain线性编排 A→B→C,适合简单流程
Graph 模式LangGraph有环图,支持循环和条件分支,工业级首选

LangGraph 是目前做复杂 Agent 编排的事实标准。它的核心概念只有三个:

  • State(状态):全局字典,存对话历史、检索结果、工具调用记录
  • Node(节点):一个个具体函数,比如"检索节点"、“评分节点”、“生成节点”
  • Edge(边):节点间的连线。最关键的是条件边:“如果检索结果不够好,回到检索节点重新搜”

用 LangGraph 建一个 ReAct Agent,就是画一张状态图:LLM 节点 ↔ 工具节点,循环直到任务完成。


记忆:短期 + 长期

冯诺依曼架构里,存储器是数据与程序的存放处。Agent 也一样,它有两套记忆

短期记忆:上下文窗口

短期记忆 = LLM 单次推理能"看到"的全部内容。包括:

  • 当前对话历史
  • 系统指令(system prompt)
  • 工具返回的结果
  • 检索到的文档片段

这个东西的瓶颈很直接:窗口是有容量上限的。一次塞太多东西,推理质量下降(上下文膨胀),Token 成本飙升。

所以 Agent 不是把什么都扔进窗口。它需要窗口管理策略:滑动窗口(只保留最近 N 轮)、摘要压缩(把旧对话总结成一段话)、按需加载(只拉当前步骤需要的信息)。

长期记忆:向量库 + 文档

长期记忆 = Agent 的"硬盘"。数据持久化在向量数据库(如 ChromaDB、Pinecone)和文件系统里。

这就是 RAG 在 Agent 架构中的角色:RAG 不是 Agent 的全部,它是 Agent 手里的一把"检索工具"。当 Agent 需要查某个文档时,通过向量检索捞出相关片段,塞进短期记忆窗口,LLM 基于片段生成答案。

区分清楚:

  • RAG = 检索增强生成,解决"模型记不住外部知识"的问题
  • Agent = LLM + 编排 + 记忆 + 工具,解决"模型不能自主完成任务"的问题
  • RAG 是 Agent 的一个工具,Agent 是比 RAG 大得多的系统

MCP 协议:总线

各组件要通信,需要一条总线。在 Agent 世界里,这条总线叫MCP(Model Context Protocol,模型上下文协议)

MCP 解决一个很现实的问题:每个外部工具都有自己的接口格式。你的 Agent 想多接几样东西,就得给每个写一个适配器,然后还要维护、更新、排错。开发者维护适配器的时间,甚至超过了构建 Agent 逻辑本身的时间。

MCP 就是统一接口标准。它规定了三件事:

  1. Agent 如何发现有哪些可用的工具和数据源
  2. Agent 如何请求某个工具执行某个操作
  3. 工具如何返回结果给 Agent

有了 MCP,Agent 接新工具就像 USB 插外设,不需要每次给键盘重新焊针脚。

Google 四月份开源的Agent Skills(github.com/google/skills)就兼容 MCP,这意味着一份 Skill 可以跨平台使用:写一次,在 Claude Code、Cursor、Antigravity、Gemini CLI 里都能跑。


Tool / Skills:I/O 设备

Agent 的"手脚",跟外部世界交互的能力,分为两层:

Tool:工具调用

工具 = Agent 能调用的外部函数。搜索、读写文件、发邮件、执行 SQL、操作浏览器…

底层机制就是Function Calling(函数调用)。这个名字本身说出了本质:

  • LLM 输出一段 JSON,说"我想调search函数,参数是query='Transformer对比'

  • 编排层解析这段 JSON,去调用真正的search()函数

  • 函数的结果打包返回给 LLM

  • LLM 看到结果,决定下一步:继续调另一个工具,还是直接回答

LLM 不执行任何代码。它只是按概率输出了一段 JSON。执行是编排层的事。

Skills:可复用的专业知识模块

Skills 是比 Tool 更上一层的抽象。Tool 只编码了"调用什么函数",Skill 还编码了"怎么做"和"为什么这么做"。

具体来说,一份 Skill 就是一份 Markdown 文件,包含:

  • 这个领域的关键概念
  • 常见操作的标准流程
  • 已验证的最佳实践
  • 容易踩的坑

Google 官方 Skills 仓库覆盖了 BigQuery、Firebase、GKE 等 13 项云服务。Addy Osmani 的agent-skills(GitHub 2.4 万 star)则提供了 20 个工程纪律 Skill,把资深工程师的工作习惯拆成可组合模块:

Skills 的定位:在 Prompt 之上(可复用持久)、在微调之下(轻量可迭代)、比 RAG 更主动(主动注入知识而非被动检索)。


当前主流范式与工程驱动

四种运行范式

上面拆解的是 Agent 的"零件"。这些零件组合起来怎么跑?目前有四套主流模式:

范式控制逻辑典型场景
ReActThought→Action→Observation 循环通用任务拆解
Plan-Execute先规划 Step 1-3,再线性执行步骤确定的流程
Reflexion执行后自我检查,不通过重来高质量生成
Multi-Agent多个 Agent 分工协作复杂系统

它们的区别本质上是编排策略不同:ReAct 是中断驱动的循环,Plan-Execute 是静态调度,Reflexion 是带校验的重试,Multi-Agent 是多核并行。

工程化驱动:Harness 与 Agentic Engineering

了解概念只是第一步。把 Agent 从 demo 变成生产系统,才是工程化的硬骨头。

Karpathy 在今年 Sequoia 访谈里给了一个关键区分:

Vibe Coding 抬高下限,更多人能用自然语言做软件。
Agentic Engineering 保住上限,用 Agent 加速,但不能牺牲质量、安全和可维护性。

Agentic Engineering 的核心就是给 Agent 加边界。具体手段包括Harness(测试架)

  • LLM-as-a-Judge:用一个更强的模型给 Agent 的输出打分
  • 自动化回归测试:每次改 Prompt 或工具定义后,跑一遍标准测试集
  • 调用链追踪:记录每次 Thought→Action→Observation,方便回溯排查

本质上,Agentic Engineering 在做的事就是:在组件不可靠的前提下,搭建一套可靠的系统。LLM 是锯齿状的、有时会出错的。编排、验证、回滚这些机制,是为了让整体系统的可靠性不取决于单个组件的可靠性。


总结:什么是 Agent

回到开篇的问题。用一句话回答:

Agent 是一台以 LLM 为运算器,加上编排控制器、短期+长期记忆、MCP 总线,以及 Tool/Skills I/O 层,构成的自主任务执行系统。

用我们熟悉的计算机做参照物:

2026 年之所以是智能体元年,不是因为 LLM 突然变强了,是因为除了 LLM 之外的那四个零件,今年全部进入了可用状态

  • 编排:LangGraph 成熟,Graph 模式成为工业标准
  • 记忆:向量库成本降到可以本地跑(ChromaDB / Qdrant)
  • MCP:标准协议被 Google/Anthropic 等大厂接受
  • Skills:可复用知识模块的理念开始落地(Google / Osmani)

当所有外围组件就位,Agent 从一个"可以试着搭"的概念变成了一个"可以工业化搭建"的系统。

这就是 2026 年正在发生的事。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 20:48:14

PKPM浮动许可利用率低:软件许可浪费,回收再利用

PKPM浮动许可利用率低,真的只是系统问题吗?前两天有位老同事找我聊,说他们公司用PKPM的浮动许可系统,但总感觉许可资源浪费严重。我问他具体表现,他说软件理应能用的许可却经常显示"不可用"。我一听就明白了…

作者头像 李华
网站建设 2026/5/21 20:47:57

基于 Google AppSheet 滥用的 Facebook 定向钓鱼攻击机理与防御体系研究

摘要 2026 年 5 月,Guardio Labs 与 KnowBe4 联合披露一起大规模定向钓鱼攻击事件,攻击者依托 Google AppSheet 合法邮件通知通道,伪造 Facebook 商业账号版权违规封禁警告,诱导用户访问高仿真钓鱼页面窃取账号凭证与敏感信息&…

作者头像 李华