news 2026/6/4 20:17:49

【收藏必备】AI智能体全解析:从核心架构到主流框架,大模型开发入门指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【收藏必备】AI智能体全解析:从核心架构到主流框架,大模型开发入门指南

本文系统梳理AI智能体的概念、发展脉络与核心架构,清晰拆解其与传统工作流的本质差异,聚焦智能体三大核心组件(规划能力、记忆系统、工具使用机制)的技术细节,深入剖析ReAct、Reflexion等主流实现框架,并详解模型上下文协议(MCP)在大模型与外部系统联动中的关键作用,为小白程序员和大模型爱好者提供可落地的技术学习路径与构建思路。

OpenAI应用研究主管莉莲·翁(Lilian Weng)曾在博客中指出,AI智能体有望开启AI应用的全新纪元,并提出了经典的智能体基础架构公式:智能体=大语言模型(LLM)+规划能力+记忆系统+工具使用。其中,LLM作为智能体的“核心大脑”,承担着推理决策、逻辑规划等核心任务,是整个系统的能力基石。

目前,学术界与工业界对AI智能体(Agent)的定义虽存在细微差异,但核心共识始终围绕“模拟人类自主决策与行动能力”展开。OpenAI进一步明确了这一架构逻辑,再次强调:Agent的核心构成即LLM、规划(Planning)、记忆(Memory)与工具使用(Tool Use)四大模块的有机结合,这一公式也成为后续智能体开发的核心遵循。

四大核心模块的具体功能拆解(小白友好版):

(1)LLM(大语言模型):作为智能体的“大脑中枢”,负责理解用户需求、拆解任务逻辑、生成决策指令,是连接其他模块的核心枢纽,相当于智能体的“思考核心”。

(2)规划(Planning):解决“如何高效完成复杂任务”的问题,分为两大核心能力:

子目标分解:将大型复杂任务(如“开发一个完整网站”)拆解为若干个小型、可落地的子任务(如“搭建页面结构”“编写后端接口”“调试功能”),降低任务执行难度,提升效率。

自我反思与优化:智能体可对过往行动轨迹进行复盘,识别错误步骤(如代码Bug、逻辑漏洞)并修正,形成“执行-反思-迭代”的闭环,持续提升任务结果质量。

(3)记忆(Memory):类比人类记忆机制,分为短期与长期两类,解决“信息存储与复用”问题:

短期记忆:依托LLM自身的上下文窗口实现,用于存储当前任务的实时信息(如对话内容、临时计算结果),但受模型上下文长度限制,仅能保留短期信息。

长期记忆:通过外部向量数据库实现,可持久化存储海量信息(从几天到数年),并支持快速检索调用,突破LLM自身记忆容量限制,让智能体具备“长期学习与经验沉淀”能力。

(4)工具使用(Tool Use):为智能体补充“外部能力延伸”,通过调用外部API、工具函数等,获取LLM预训练数据中缺失的信息(如实时新闻、专有数据库、代码执行结果),突破模型自身能力边界,实现“思考+行动”的落地。

这四大模块协同工作,构建起以LLM为核心的自主智能体系统。值得注意的是,LLM的潜力远不止文本生成(文章、代码、论文等),更在于通过与其他模块结合,成为通用问题解决者,适配各类复杂场景。

一、智能体 vs 传统工作流:本质区别

1、工作流(Workflow)模式

工作流是一种传统的自动化范式,其核心是对一系列任务或步骤进行预先定义的、结构化的编排。它本质上是一个精确的、静态的流程图,规定了在何种条件下、以何种顺序执行哪些操作。

2、智能体(Agent)模式

基于大型语言模型的智能体是一个具备自主性的、以目标为导向的系统。它不仅仅是执行预设指令,而是能够在一定程度上理解环境、进行推理、制定计划,并动态地采取行动以达成最终目标。LLM在其中扮演着"大脑"的角色。这种基于实时信息进行动态推理和决策的能力,正是Agent的核心价值所在。

二、智能体核心组件

AI 的发展链路大致是这样的: 从最初只能对话的 Chatbot,辅助人类决策的 Copilot,再到能自主感知和行动的 Agent,AI 在任务中的参与度不断提升。

组件一:规划

任务分解

思维链(Chain of Thought,CoT;Wei等人,2022)已成为提升模型处理复杂任务性能的标准提示技术。模型被指令“逐步思考”,通过更多的测试时计算,将困难任务分解为更小、更简单的步骤。思维链将复杂任务转化为多个可管理的子任务,同时也为解读模型的思考过程提供了思路。

思维树(Tree of Thoughts,Yao等人,2023)在思维链的基础上进行了扩展,每一步都会探索多种推理可能性。它首先将问题分解为多个思考步骤,每个步骤生成多个思路,形成树状结构。搜索过程可采用广度优先搜索(BFS)或深度优先搜索(DFS),每个状态通过分类器(基于提示词)或多数投票进行评估。

任务分解可通过三种方式实现:(1)通过LLM进行简单提示,例如“完成XYZ的步骤:1.”“实现XYZ的子目标有哪些?”;(2)使用任务特定指令,例如写小说时使用“撰写故事大纲”;(3)借助人工输入。

自我反思

自我反思是自主智能体的关键特性,它能通过优化过往行为决策、纠正之前的错误实现迭代改进。在需要反复尝试的现实任务中,自我反思发挥着至关重要的作用。

ReAct(Yao等人,2023)通过将动作空间扩展为任务特定的离散动作与语言空间的组合,在LLM中整合了推理与行动。前者使LLM能够与环境交互(例如调用维基百科搜索API),后者则促使LLM以自然语言生成推理轨迹。

Reflexion(Shinn & Labash,2023)是一个为智能体配备动态记忆和自我反思能力以提升推理技能的框架。Reflexion采用标准强化学习(RL)设置,奖励模型提供简单的二元奖励,动作空间沿用ReAct的设置——在任务特定动作空间中加入语言以支持复杂推理步骤。每次动作执行后,智能体计算启发式函数,并根据自我反思结果决定是否重置环境开始新尝试。

组件二:记忆

记忆的类型

记忆可定义为获取、存储、保留和后续检索信息的过程。人类大脑的记忆主要分为以下几类:

  1. 感觉记忆

    :这是记忆的最初阶段,能够在原始刺激消失后,短暂保留感官信息(视觉、听觉等)的印象。感觉记忆通常仅持续几秒。子类包括图像记忆(视觉)、声像记忆(听觉)和触觉记忆(触觉)。

  2. 短期记忆(STM)或工作记忆

    :存储当前意识到的信息,用于支持学习、推理等复杂认知任务。短期记忆的容量约为7个项目(Miller,1956),持续时间为20-30秒。

  3. 长期记忆(LTM)

    :能够长时间存储信息,从几天到几十年不等,存储容量几乎无限。长期记忆分为两个子类:

  • 外显/陈述性记忆:关于事实和事件的记忆,指可有意识地回忆起的内容,包括情景记忆(事件和经历)和语义记忆(事实和概念)。
  • 内隐/程序性记忆:无意识的记忆,涉及自动执行的技能和常规,如骑自行车或打字。

人类记忆分类。

我们可以大致建立以下映射关系:

  • 感觉记忆对应原始输入(文本、图像或其他模态)的嵌入表示学习;
  • 短期记忆对应上下文学习,受Transformer有限上下文窗口长度的限制,具有短期性和有限性;
  • 长期记忆对应外部向量数据库,智能体在查询时可通过快速检索访问。

外部记忆可缓解有限注意力跨度的限制。标准做法是将信息的嵌入表示存储到支持快速最大内积搜索(MIPS)的向量数据库中。为优化检索速度,常用选择是近似最近邻(ANN)算法,返回近似前k个最近邻,以轻微的精度损失换取大幅的速度提升。

组件三:工具使用

工具使用是人类显著的区别性特征。我们创造、修改和利用外部物体,以完成超出自身生理和认知极限的事情。为LLM配备外部工具,可显著扩展模型的能力。

工具使用相关框架与实践

MRKL(Karpas等人,2022)是“模块化推理、知识与语言”的缩写,是一种用于自主智能体的神经符号架构。MRKL系统由一组“专家”模块组成,通用LLM充当路由器,将查询分配给最合适的专家模块。这些模块可以是神经型的(如深度学习模型)或符号型的(如数学计算器、货币转换器、天气API)。

研究人员进行了一项微调LLM调用计算器的实验,以算术题为测试案例。结果显示,LLM(70亿参数Jurassic1-large模型)解决文字数学题比明确表述的数学题更困难,因为它难以可靠地提取基础算术的正确参数。这一结果表明,当外部符号工具可可靠工作时,“知道何时使用工具以及如何使用工具”至关重要,而这取决于LLM的能力。

TALM(工具增强语言模型;Parisi等人,2022)Toolformer(Schick等人,2023)均通过微调语言模型,使其学会使用外部工具API。数据集的扩展基于新增的API调用标注是否能提升模型输出质量。更多细节可参考提示词工程的 “外部API”部分。

ChatGPT的插件功能和OpenAI API的函数调用功能,是LLM增强工具使用能力的实际应用案例。工具API集合可由其他开发者提供(如插件)或自定义(如函数调用)。

HuggingGPT(Shen等人,2023)是一个以ChatGPT为任务规划器的框架,它根据模型描述选择HuggingFace平台上可用的模型,并基于执行结果总结响应。

HuggingGPT工作原理示意图

该系统包含四个阶段:

(1)任务规划:LLM作为“大脑”,将用户请求解析为多个任务。每个任务包含四个属性:任务类型、ID、依赖关系和参数。通过少样本示例引导LLM进行任务解析和规划。

指令示例: AI助手可将用户输入解析为多个任务:[{“task”: 任务名称, “id”: 任务ID, “dep”: 依赖任务ID列表, “args”: {“text”: 文本内容, “image”: 图片URL, “audio”: 音频URL, “video”: 视频URL}}]。“dep”字段表示当前任务所依赖的、生成新资源的前序任务ID。特殊标签“-task_id”指代ID为task_id的依赖任务生成的文本、图片、音频和视频。任务必须从以下选项中选择: {{可用任务列表}} 。任务之间存在逻辑关系,请注意顺序。若无法解析用户输入,需返回空JSON。以下是参考案例: {{演示示例}} 。聊天历史记录为 {{聊天历史}} 。可从聊天历史中获取用户提及的资源路径,用于任务规划。

(2)模型选择:LLM将任务分配给专家模型,该请求以选择题形式呈现。LLM需从提供的模型列表中选择。由于上下文长度有限,需先按任务类型过滤。

指令示例: 给定用户请求和调用命令,AI助手帮助用户从模型列表中选择合适的模型处理请求。仅输出最合适模型的ID,格式需严格遵循JSON:“id”: “模型ID”, “reason”: “选择的详细理由”。候选模型列表: {{候选模型}} 。请从列表中选择一个模型。

(3)任务执行:专家模型执行特定任务并记录结果。

指令示例: 基于输入和推理结果,AI助手需描述过程和结果。前序阶段信息如下:用户输入: {{用户输入}} ,任务规划: {{任务列表}} ,模型选择: {{模型分配}} ,任务执行: {{预测结果}} 。需先直接回应用户请求,再以第一人称描述任务过程,展示分析和模型推理结果。若推理结果包含文件路径,需告知用户完整路径。

(4)响应生成:LLM接收执行结果,向用户提供总结性回复。

要将HuggingGPT投入实际应用,需解决以下挑战:(1)效率提升——LLM推理轮次和与其他模型的交互会拖慢流程;(2)依赖长上下文窗口——需传递复杂任务内容;(3)稳定性提升——LLM输出和外部模型服务的稳定性需优化。

三、智能体框架

在红杉资本AI峰会第三期,吴恩达教授分享了对智能体工作流的看法。在本次演讲中,他谈到了AI agentic workflow,也就是智能体工作流的迭代模式,以及基于人工评估基准测试的效果分析,还谈到了自己对于AI智能体设计模式的四种分类,包括反思、工具使用、规划、多智能体协作。吴恩达教授介绍了四种主要的Agent设计模式,每一种都展现了提高AI能力的潜力。

1.Reflection(反思):Agent通过自我审视和修正输出,提高结果的质量。例如,在代码编写中,Agent能够自我反思并修正错误,从而生成更优质的代码。

2.Tool Use(工具使用):LLM能够生成代码和调用API,执行实际操作,从而扩展了其应用范围。这种模式下,LLM不仅能够生成文本,还能够与外部工具和接口交互。

3.Planning(规划):Agent能够分解复杂任务并按计划执行,展现了AI在处理复杂问题上的能力。规划算法使得Agent能够更有效地管理和完成任务。

4.Multiagent Collaboration(多Agent协作):多个Agent扮演不同角色合作完成任务,模拟了一个真实的工作环境中的协作。这种方式的强大之处在于它能够让LLM不仅仅是执行单一任务的工具,而是成为一个能够处理复杂问题和工作流程的协作系统。

下面选两个常用框架进行详细介绍:

1、ReAct框架

ReAct是一种将推理(Reasoning)与行动(Action)相结合的智能体架构。其核心思想是让智能体在思考过程中明确表达推理步骤,然后基于推理选择适当的行动,再根据行动结果更新认知,形成一个持续的循环。

1. ReAct模式的核心理念与循环

ReAct是Reasoning and Acting(思考与行动)的缩写。它最初由2022年10月的一篇论文提出,尽管已有近三年时间,其提出的Agent运行模式至今仍被广泛使用。

在ReAct模式下,Agent的运行流程是一个持续的循环:

  • 用户提交任务
  • Thought(思考):Agent首先进行思考,决定接下来要做什么。
  • Action(行动):思考后,Agent决定是否调用工具。如果需要,它会调用合适的工具(如读取文件、写入文件内容等)。请注意,这里大模型是请求调用工具,实际执行工具的是Agent的工具调用组件。
  • Observation(观察):Agent查看工具的执行结果,例如所读取的文件内容或写入是否成功。
  • 循环:在观察之后,Agent会继续思考,再次判断是否需要调用工具。如果仍然需要,它会重复Thought -> Action -> Observation的流程,直到它认为不再需要调用工具,可以直接给出结论为止。
  • Final Answer(最终答案):当Agent认为任务完成时,它会输出最终答案,整个流程结束。

因此,ReAct流程的核心要素是:ThoughtActionObservationFinal Answe。

2. ReAct模式的实现奥秘:系统提示词

为什么大模型拿到用户问题后会先思考再行动,而不是直接行动呢?这与模型的训练过程关系不大,大部分奥秘都集中在**系统提示词(System Prompt)**上。

系统提示词是与用户问题一起发送给大模型的提示词,它规定了模型的角色、运行时要遵守的规则,以及各种环境信息等。如果希望模型按照ReAct模式返回答案,系统提示词就会比较复杂。

一个典型的ReAct系统提示词大致包含五个部分:

  • 职责描述:明确告诉模型它需要解决一个任务,并将任务分解为多个步骤。对于每个步骤,首先使用thought标签思考,然后使用action标签调用工具,工具的执行结果通过observation返回,并持续这个思考和行动的过程,直到有足够的信息提供final answer。
  • 示例:提供具体的ReAct流程示例,例如用户提问、模型思考、调用工具、观察结果、再次思考并给出最终答案的完整对话示例。这有助于模型理解并遵循预设的交互规范。
  • 可用工具:列举Agent可用的工具列表及其功能说明,例如用于读取文件内容、写入文件内容、运行终端命令的工具等。
  • 注意事项:提供一些操作上的注意点。
  • 环境信息:告知大模型当前的操作系、目录以及目录下的文件列表等相关环境信息。

通过将这样的系统提示词和用户任务一起提交给大模型,大模型就会遵循这些规范来输出答案,从而实现ReAct模式的运行。

3. ReAct模式的实际运行演示

DeepSeek为例,当我们将包含ReAct规范的系统提示词和“写一个贪吃蛇游戏”的任务提交给它时,DeepSeek会按照要求先在thought标签中思考,然后使用action标签请求调用write_to_file工具来写入index.html文件内容。

在实际的Agent中,当大模型请求调用工具后,Agent的工具调用组件会真正执行该工具,例如将HTML内容写入文件。然后工具的执行结果(如“写入成功”)会作为observation返回给Agent主程序,Agent主程序再将其加入到历史消息列表,并再次发送给大模型。模型拿到工具的执行结果后,就能根据结果推测下一步要干什么,继续进行思考(thought),并请求写入CSS、JS文件。当所有文件写入完成后,大模型在thought之后会返回一个final answer,整个回答过程便彻底结束。

这个过程完美体现了ReAct的运行节奏:Thought->Action->Observation,直到任务完成,输出Thought->Final Answer。系统提示词相当于给模型安排了一个迷你剧本,模型会严格按照这个剧本一步一步走完。

一个完整的ReAct Agent,其核心代码在于一个run函数。这个函数内部构建了一个消息列表,包含系统提示词和用户问题,然后调用模型获取执行结果。它会提取返回结果中的thought部分并打印,然后检测是否包含final answer。如果不是,就解析出action,提取函数名和参数,并执行对应的工具。工具执行结果会被放入observation并添加到消息列表,然后循环再次请求模型,直到模型返回final answer

在这里我推荐一个提示词商城:

https://prompts.explinks.com/packs/integrate-user?ref=ad059fb4ad64

2、Reflexion框架

Reflection机制的核心思想是为智能体引入一种事后(post-hoc)的自我校正循环,使其能够像人类一样,审视自己的工作,发现不足,并进行迭代优化。它为智能体提供了一个内部纠错回路,使其不再完全依赖于外部工具的反馈(ReAct的Observation),从而能够修正更高层次的逻辑和策略错误。

Reflexion是一个框架,为Agent提供动态记忆自我反思的能力以提高推理技能。Reflexion采用标准的强化学习设置,奖励模型提供简单的二元奖励(即判断行动正确与否),而行动空间遵循 ReAct 中的设置,通过语言加强特定任务的行动空间,增加了复杂的推理步骤。在每个行动之后,Agent会计算一个启发式值,并根据自我反思的结果决定是否重置环境以开始新的试验。

Reflexion是一种强化学习方法,与传统强化学习调整参数调优的方法不同,本模型使用语言反馈而不是更新参数权重来强化语言智能体。旨在分析错误,形成反思并保存,作为上下文帮助后续决策。

构造了一个基于当前环境的短期存储和基于反思的长期存储相结合的模型。

四、模型上下文协议(MCP)

在构建由大型语言模型(LLM)驱动的智能应用时,如何让 AI 不仅仅停留在文本生成,而是能够与外部世界的数据和工具进行交互,是一个核心挑战。Anthropic 推出的Model Context Protocol (MCP)正是为了解决这一问题,它提供了一个标准化的框架,让 AI 应用能够安全、高效地获取上下文信息并调用外部功能。

我认为 MCP 的出现是 prompt engineering(提示工程)发展的产物。更结构化的上下文信息对模型的性能提升是显著的。我们在构造 prompt (提示词)时,希望能提供一些更具体的信息(比如本地文件,数据库,一些网络实时信息等)给模型,这样模型更容易理解真实场景中的问题。

在这里我推荐一个提示词商城:

https://prompts.explinks.com/packs/integrate-user?ref=ad059fb4ad64

想象一下没有 MCP 之前我们会怎么做?

我们可能会人工从数据库中筛选或者使用工具检索可能需要的信息,手动的粘贴到 prompt 中。随着我们要解决的问题越来越复杂,手工把信息引入到 prompt 中会变得越来越困难。为了克服手工 prompt 的局限性,许多 LLM 平台(如 OpenAI、Google)引入了function call(函数调用)功能。

这一机制允许模型在需要时调用预定义的函数来获取数据或执行操作,显著提升了自动化水平。但是同时又出现了新的问题。缺少标准化的上下文和工具集导致 Agent 开发有三大痛点:

1 开发耦合度高:工具开发者需要深入了解 Agent 的内部实现细节,并在 Agent 层编写工具代码。这导致在工具的开发与调试困难。

2 工具复用性差:因每个工具实现都耦合在 Agent 应用代码内,即使是通过 API 实现适配层在给到 LLM 的出入参上也有区别。从编程语言角度来讲,没办法做到跨编程语言进行复用。

3 生态碎片化:工具提供方能提供的只有 OpenAPI,由于缺乏标准使得不同 Agent 生态中的工具 Tool 互不兼容。

什么是MCP?

MCP (Model Context Protocol) 是一个开源标准和框架,由Anthropic 在2024年11月份提出,旨在连接 AI 应用程序与外部系统。它为 AI 助手提供了一种标准化的方式,使其能够无缝地与外部数据源(如内容管理系统、数据库、企业应用程序等)和各种工具进行集成。

简单来说,MCP 使得 LLM 应用程序能够:

  • 获取实时或领域特定的上下文信息,超越其训练数据的限制。
  • 执行外部操作,例如搜索网页、查询数据库、发送邮件等。

MCP 架构由三个关键角色组成,它们协同工作,共同实现了 AI 应用与外部世界的连接:

1. Host (AI 应用本体)

  • 角色:

    承载 AI 核心逻辑的应用程序,例如 Cursor、Claude Desktop、Dify、Gptbots等或者您自己开发的 AI应用。

  • 核心功能:

  • 管理用户界面 (UI) 和对话历史:

    提供用户交互界面,并维护与用户的对话记录。

  • 调用 LLM:

    负责与底层的大型语言模型(如 OpenAI 的 GPT 系列、Anthropic 的 Claude 系列等)进行交互,发送提示并接收响应。

  • 挂载 MCP Client:

    在其内部集成 MCP Client,将 MCP Server 暴露的工具映射成 LLM 可以理解和调用的tools(Function Calling)。

  • 处理tool_calls

    当 LLM 决定调用某个工具时,Host 会将模型生成的tool_calls请求,转发给 MCP Client,进而触发对 MCP Server 的实际调用。

2. Client (MCP Client,Host 内的一层运行时)

  • 角色:

    位于 Host 内部的运行时层,负责实现 MCP 协议并管理与 MCP Server 的连接。

  • 核心功能:

  • 协议实现者 + 进程/连接管理者:

  • 本地 stdio 模式:

    负责启动本地的 MCP Server 进程(例如通过uvx mcp-server-timepython mcp_server.py命令),并通过标准输入/输出 (stdin/stdout) 使用 MCP JSON-RPC 协议进行通信。

3. Server (MCP Server)

  • 角色:

    真正定义“有哪些工具”以及如何执行这些工具的一方。

  • 核心功能:

  • 实现 MCP 协议规定的方法:

    响应initializetools/listtools/call等协议方法。

  • 内部注册工具:

    注册具体的工具函数,例如get_current_time(获取当前时间)、web_search(网页搜索) 等,并为每个工具提供其参数的 JSON Schema 定义。

  • 返回工具元数据:

    当收到tools/list请求时,返回所有注册工具的元数据(包括工具名name、描述description和参数parameters)。

  • 执行工具:

    当收到tools/call请求时,根据工具名和参数执行相应的内部工具,并将执行结果返回。

    外部工具,工具方内部已经实现server了我们直接用即可,内部工具需要我们自己去写server。

典型的 MCP 使用流程

  1. 用户配置 MCP Server 信息:

    用户在 AI 应用(Host)的配置中(例如一个mcp.json文件)定义了有哪些 MCP Server,以及如何连接它们(是本地进程 stdio 模式还是远程 URL+SSE 模式)。

  2. Host 建立连接并获取工具列表:

  • Host 读取配置后,通过其内部的 MCP Client 建立与 MCP Server 的连接(启动本地进程或连接远程 URL)。
  • Client 按照 MCP 协议向 Server 发送tools/list请求。
  • MCP Server 响应请求,返回其内部注册的所有工具的列表,包括每个工具的名称、描述和参数的 JSON Schema。
  1. Host 映射工具为 LLM 可调用格式:

    Host 接收到 MCP Server 返回的工具列表后,将这些工具的元数据转换成 LLM(如 OpenAI 的 Function Calling 机制)可以理解和调用的tools格式。这相当于“将 MCP 世界的工具安装进模型的插件系统”。

  2. 用户对话,LLM 判断是否需要工具:

  • 用户与 AI 应用进行对话。
  • Host 将用户输入和已映射的工具定义一同发送给 LLM(通过chat.completionsAPI 调用,并带上tools参数)。
  • LLM 根据对话内容和工具定义,判断是否需要调用某个工具来完成任务。如果需要,模型会返回一个tool_calls响应,指明它“想用 MCP 里的某个工具”以及相应的参数。
  1. Host 用 MCP Client 调 tools/call 真正执行工具:
  • 当 Host 收到 LLM 返回的tool_calls时,它会通过 MCP Client 再次向 MCP Server 发送tools/call请求,真正执行模型指定的工具,并传入模型生成的参数。
  • MCP Server 执行相应的内部工具,并将执行结果返回给 MCP Client。
  1. Host 把结果塞回对话,再让 LLM 给最终回答:
  • Host 收到工具执行结果后,将这个结果作为新的上下文信息,再次塞回给 LLM(作为tool_outputs)。
  • LLM 结合之前的对话历史和工具执行结果,生成最终的回答并返回给用户。

举例来说:
用户在 Cursor(Host)中配置了一个新的 MCP Server。Cursor 内置的 MCP Client 会立即启动这个 MCP 进程(如果是本地模式)或建立远程连接。Host 随后通过 Client 拉取 MCP Server 暴露的所有工具,并将它们转换为 OpenAI 的tools格式。当用户提问时,模型可能会决定调用一个 MCP 工具(例如web_search),Host 通过tools/call将请求转发给 MCP Server。Server 执行搜索并返回结果,Host 再将搜索结果提供给模型,让模型生成最终的最终回答。

五、MCP 与传统插件机制的区别

mcp实际就是提供了一种标准化的访问外部数据源的方式,他能做的插件也能做,但是插件与模型厂商挂钩,协议格式各不相同,对接复杂,mcp简化了这种流程,且更加开放 标准了 别人写好了mcp工具我们直接就能用。

在构建基于大型语言模型(LLM)的应用时,理解function_callModel Context Protocol (MCP)这两个概念至关重要。它们虽然都与工具集成相关,但作用的“层级”和解决的问题截然不同。

1.function_call是“LLM API 级别”的能力

function_call(或类似的工具调用机制,如 Anthropic 的tool_use)是 LLM 提供商在其 API 中内置的一种能力。它解决的核心问题是:“这个模型如何在一次 API 调用里请求某个函数、传参,并让调用者拿到结果?”

对于开发者来说,使用function_call时,你需要自己搞定以下这些“手工工作”:

  • 工具发现:

    去哪里找到这些可供 LLM 调用的函数(工具)?多个 server、几十上百个工具,怎么声明、分类、动态启用/禁用?

  • 工具传输和生命周期:

    这些函数(工具)是本地运行的、需要通过远程 HTTP API 调用的,还是通过命令行接口(CLI)执行的?连接、心跳、长任务、cancel、错误码处理?

  • 服务厂商差异化处理:

    如果有多个工具服务提供商,它们的 API schema/鉴权/错误码可能各不相同,如何统一处理?

因此,在没有 MCP 这样的协议层时,你的 AI 应用(Host)里,实际上做了很多繁琐且定制化的工作:

  • 从 JSON 配置文件或特定的 MCP Server 拉取工具元数据。
  • 把它们“翻译”成 OpenAI 或其他 LLM 平台所要求的tools(Function Calling)格式。
  • 收到tool_calls再自己路由到不同的 server 去执行。

2. MCP 是“工具/Agent 生态层”的协议

Model Context Protocol (MCP)则是一个更高层级的协议,它旨在解决更宏观的问题:“世界上所有想给 LLM 用的工具/Agent,要用什么统一的方式把自己挂出来,让任何 AI 应用都能方便地发现和使用?”

MCP 协议提供了一套标准化的机制,包括:

  • 外部工具能力标准化(发现 + 传输)
  • 工具发现:mcpServers 配置 + tools/list → Host 不需要为每个服务商自定义“列出我有哪些能力”的协议。
  • tools/call + JSON‑RPC over stdio/HTTP/SSE → 不同传输方式下,语义和报文结构是一致的。
  • 工具协议处理(鉴权 / 请求 / 响应 / 错误码)
  • initialize / tools/list / tools/call

  • 标准 JSON‑RPC 报文

  • 标准 error.code / error.message / error.data。

  • 各家服务商在自己的 MCP Server 里,把乱七八糟的内部 API(鉴权、数据结构、错误码)统统“翻译”为统一的 MCP 形状;

  • Host 只跟 MCP Server 说话,看到的是统一的:

  • 多端复用
  • 同一个 MCP Server,可以被不同的 AI 应用(Host),如 Cursor、Claude Desktop 或你自己的自定义 Host,直接连接并复用,极大地提高了工具的生态复用性。

对于 AI 应用(Host)来说,有了 MCP 这一层协议之后,其工作变得更加简化和标准化:

  • 通过client按照mcp协议连上 mcp-server;
  • host连接client获取server的所有工具挂到 llm-function_call 里;
  • 按规范把 tools.call 转发出去就行,不用管每家怎么实现。

可以这么说:在“能不能让模型调工具”这件事上,function_call 理论上都能做到 MCP 能做的事,但两者不在一个层级,MCP 是把一整层东西“标准化 + 外包”了。

总结,function_call是 LLM 本身具备的“调用函数”的能力,而MCP则是一套“如何标准化地组织、发现和调用这些函数”的协议和生态系统。MCP 极大地简化了 Host(AI应用) 在工具集成方面的工作,将复杂性下沉到 Client 和 Server 层,从而促进了 AI 工具生态的繁荣和互操作性。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/3 21:26:42

【计算机毕业设计案例】基于springboot的电影院订票选座系统电影院票务预定系统(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/4 5:59:13

2026毕设ssm+vue驴友社交管理系统论文+程序

本系统(程序源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。 系统程序文件列表 开题报告内容 一、选题背景 关于户外旅游社交问题的研究,现有研究主要以传统旅游信息平台或单一社交应用为主,专门针对驴友…

作者头像 李华
网站建设 2026/5/27 4:34:27

校直机设计

2 设计要求 (1)已知原始数据及工作条件 ① 校直机所要校直的工件,板簧规格为2590mm; ② 工作地点为室内,工作平稳; ③ 校直液压缸载荷400kN。 (2)设计成果 ① 毕业设计说明书1份&…

作者头像 李华
网站建设 2026/5/29 13:35:10

龙门射线检测装置设计

2 龙门射线检测装置总体设计方案 2.1 龙门射线检测装置简介 龙门射线检测装置可用于中小型机械设备的检测中,利用一些穿透性较强的射线进行无损探测,将探测所得图像利用图像处理技术,进一步的分析处理,获得检测报告进行反馈&#…

作者头像 李华
网站建设 2026/5/30 15:44:59

TCP/IP协议简单介绍

协议栈概述TCP/IP协议栈的基本概念和历史背景四层模型(应用层、传输层、网络层、链路层)与OSI七层模型的对比协议栈在现代网络通信中的核心作用链路层(数据链路层)链路层的主要功能和职责常见协议:以太网(E…

作者头像 李华
网站建设 2026/5/30 14:47:50

30型离心抛光机结构设计

2 抛光机整体设计方案 2.1 整机结构及功能概述 本文设计的离心抛光机(如图2.1所示)工作时主要传动为通用电机启动带动两个塔轮传递运动给小带轮,小带轮通过皮带使得大带轮转动,与大带轮同轴连接的滚筒旋转架一并同速转动&#xff…

作者头像 李华