news 2026/1/11 18:11:45

大模型赋能React框架:从单智能体到多智能体的领域场景开发攻略!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型赋能React框架:从单智能体到多智能体的领域场景开发攻略!

背景

基于大模型的领域场景开发,说到底无非是借助基座模型对语义的理解推理能力,将通用AI变为专有AI工具的过程。但仅仅只做模型调用,来实现复杂类需求,对生产力的提升并没有太大帮助。因此在围绕提升研发生产力的过程,从大模型问世到现在,卷出了各种大模型工程规范。从最早的提示词工程到RAG,再到流程编排模式,每个阶段无疑都是对研发生产力的不断提升。

当然我们团队也经历了这些阶段,我们最先基于饿了么钉钉文档,开发了一套完备的RAG+角色扮演平台,此后又并行推出了拥有三十多项大模型指令的饿了么一键办事机器人——小e,和集成流程编排到平台能力中,为适配多端透出和支持丰富渲染,开发了问答助手分身及问答卡片搭建功能。感兴趣可以在文章最后介绍中体验。

至此也基本能满足大多数AI需求场景的低代码搭建。但随着多智能体架构对复杂场景的支持越来越灵活,近期我们也在设计架构升级。

参考了一些主流平台中工具与agent间的分发及调用,针对我们平台当前的用户体量及后续支撑的一些场景,分析层级指挥和自由协作两种模式的利弊,选用层级指挥模式作为React框架。初步实现了单智能体对工具调用的反思规划,后边迭代利用此框架再将智能体抽象为工具调用,实现多智能体间的相互协作。

先上结果:

1.对用户提问自主规划,比流程编排模式更加灵活。

2.单智能体更丰富的工具体系,自主选择工具调用,摆脱传统prompt工程参数解析、意图识别等coding或节点配置过程。

ToolCalls+MCP实现React模式

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

什么是React

对于React,大家都有自己的理解。本文主要介绍我们是如何实现React框架,关于智能体React模式简单仅做个人简单的一些理解。

1.首先LLM需要不断和环境作出反馈和判断,制定下一步的执行策略。这里的环境即工具列表、对话上下文、一些系统变量。

2.上图可以看出,核心还是接收反馈后采用什么方式决策?以及和环境之间通信的上下文如何管理。

因此关于决策方式和上下文管理大家都卷出了各种玩法:

决策方式

1.类manuas方式,使用PlanningAgent:负责规划;Controller Agent负责监督Planning执行情况;StepAgent负责打标。

2.OpenAI提出的显式引导

3.Planning As Tool——将思考规划作为一个单独的工具,告诉大模型有这样一种工具,且入参定义为思考、行动、规划,借助工具入参来引导大模型思考规划。

上下文管理

这个可能又涉及到一些比较复杂的上下文通信和动态压缩等,本文也不做介绍,后续也是我们重点升级的方向,好的上下文通信带来的核心收益有两方面:

  1. 每个agent拥有更丰富的背景内容,产出质量更高 ;

  2. 极大节省token,用tooCalls的方式很烧token;

Planning As Tool 方案推演

1.调用大模型时注入系统提示词+用户提问+工具列表(包含思考规划工具)。

2.得到大模型回答出,需要的工具是什么,以及入参是什么?

3.第一步回答出需要调用的工具是思考工具,借助思考工具定义的入参,让大模型给到思考内容、规划内容,实际该方法只是一个空壳,然后拼接大模型的回答和工具调用的结果,思考规划工具的调用结果手动mock为success。

4.得到回答,需要调用天气查询工具,入参也给出来了:

5.重复2-4的过程,直至大模型返回的tool_calls为空,content不为空时结束,最终结果如下:

实现架构

技术选型

技术选型上我最终使用的是elemMcpClient+多平台LLM调用客户端。

那为什么这样选择,不直接使用springAI已经封装好的工具调用,或者使用原生McpSdk,还要自己手撸呢:

1.springAI本身集成了上下文管理、工具调用等能力,理论上直接用来做模型调用是很方便,但是:

a.中间过程交互不够友好,对于个人开发者来说,springAI确实比较方便,绑定一堆工具、配置好模型地址和ak,输入一个提问,直接能返回意图分类后工具的执行结果,但是我们是平台开发者,我们需要将中间过程做封装交互展示。

b.springAI虽然可以设置中断,只返回该调用哪个工具,把工具的执行交给开发者,但这里也有点坑,有些情况不能返回选择了哪个工具,而且,那这样的话,springAi的价值也大打折扣,仅被当成一个LLM调用的客户端…

c.很多国内模型其实springAI的openAiApi支持的不够灵活,可能是我自己原因,没有找到springAi里面qwen3的enableThinking=false在哪配置。

d.springAI集成的原生McpSdk本身也有坑,比如集团内发布的很多TppMcp或者AoneMcp都调不通,原因在下面分析。

2.原生MCPSdk作为工具调用时,不支持后缀带很多参数的MCP服务,如Aone开放平台发布的MCP为了鉴权,带有鉴权参数。

基于上述背景和试错过程,最终选择了ElemeMcpSdk + 包含WhaleSdk在内的主流平台LLM客户端。

系统架构设计

规划类agent调度框架如下图所示:

1.agent分类方面,此前我们已经有了流程编排类型、其他平台api接入类型、RAG+角色扮演类型。此次扩展出一种规划类型agent。

2.在环境方面,我们针对长期记忆和短期记忆分别进行持久化。

a.长期记忆主要指多轮对话,补充一次会话过程中的背景信息;

b.短期记忆是每个智能体或工具给出的回答,用于:1.后续实现单agent间的通信 2. 记录思考次数,以便做异常中断;

c.agent绑定的工具列表持久化,其中有一个作用是,gpt4做toolCalls时,仅支持方面名是英文的方法,因此还要利用这块的存储做中文-英文的缓存;

3.规划过程:

a.领域抽象时,设计了五个Node来完成核心流程;

b.startNode,用于组装系统提示词、RAG检索到的片段、用户提示词、历史对话、用户提问、工具列表;

c.startNode节点中调用LLM,收到反馈;

d.ProcessNode节点负责循环过程的执行,需要获取LLM返回的参数,去拼接LLM的message内容、以及循环中发起对工具列表的调用;

e.ToolManagerNode ,负责接收需要调用的方法名及入参,根据方法名,在cache中查找对应的MCP的sseUrl利用mcp客户端调用工具获取结果,添加到LLM的message中;

f.StepNode,负责对每一步结果进行打标,并存储到短期记忆中;

g.SendNode 负责接收来自processNode的数据,并进行封装,如背景中的各个步骤执行效果,需要用和前端约定好的标签封装过程数据。然后对封装好的数据利用Ssemitter进行发送;

4.LLM客户端封装

a.针对LLM调用,主要是根据不同平台对模型的支持程度,封装了三个LLM-ToolCalls的客户端;

b.whaleSdk、Idealab-http调用、springAI框架调用;

c.根据用户配置的模型id,来适配找出一种客户端做模型调用;

整个实现流程图如下,与上述描述基本一致:

核心代码

这部分主要对实现的相关代码进行介绍。

核心类及属性

流转对象

startNode

发起调用流程

规划运行节点

工具节点:获取工具列表,只在startNode中调用。

工具节点:执行工具

LLM客户端:whale为例

利用工厂模式还扩展了springAI、Idealab类型客户端。

核心类基本如上图所述,还有其他关于前后端约定的展示样式封装的工具类不做展开介绍。

多智能体升级方案

单智能体本身就是为了解决足够复杂的任务,为什么还需要多智能体?

这里给一些个人的看法:

1.烧token,每次中心agent对模型的请求完全是无脑拼接,如果拆分成多智能体,中心agent对模型的发起只用某个agent返回的结果即可。

2.单智能体职责不够清晰,产出的交付物不如 多智能体的“专业的事交给专业的人”

上述方案我们已经实现了单智能体对工具的React框架,但是多智能体的协同还未做升级,参考了一些资料,多智能体框架实现基本分为两类。

一种是类似React的层级调度模式,由中心agent负责调度需要执行的智能体,我们实现也比较简单,只需要在现有实现框架基础上,将agent抽象为工具即可。工具执行时根据工具类型再实现调用方法。

另一种是自由协作模式,针对一个问题,每个agent分别去处理这个问题,然后执行结果发送给下一个agent,继续判断它能否解决这个问题,以及解决了哪些部分,一轮结束后,由中心agent去分发任务开始执行下一轮,这时候每个agent由了上一轮的上下文,产出效果更聚焦于各自职责。直到中心agent判断可以产出时,进行汇总。

两种方案如下图所示:

考虑后续我们承接的业务场景暂时不需要很发散的需求,采用层级指挥模式进行多智能体协作设计。

未来迭代重点

通过手撸React框架,以及对多智能体协作的调研,发现了一些问题,其实本文上述中在每个章节都有提到上下文管理。

如果无脑做ToolCalls调用,带来的问题有:

1.烧token;

2.无关信息可能会导致每个agent调用时产生幻觉;

如果agent获取到的上下文不够或者确实,带来的问题有:

1.产出质量较低,导致指挥者可能发生多次无用的调用指挥;

2.agent并行执行时,agent之间的上下文通信能力不足,类似于神经网络中陷入局部最优解;

因此,在多智能体升级完以后,我们也会考虑设计上下文动态压缩、合理使用文件系统等工作。

查询了一些资料,发现有些资料中的观点与我提到的基本类似,可以参阅:

总结

本文主要对多平台LLM客户端+MCP 实现智能体React框架的方案进行了详细阐述,对核心代码进行了剖析,以及对目前业界多智能体设计方案的进行了调研简单介绍。希望能对相关平台开发者有借鉴意义,对个人开发者其实有更多的方案进行体验,没有必要进行手撸框架。

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/10 10:19:52

如何用AutoHotkey实现输入效率翻倍?

如何用AutoHotkey实现输入效率翻倍? 【免费下载链接】AutoHotkey 项目地址: https://gitcode.com/gh_mirrors/autohotke/AutoHotkey 你是否曾经在写代码时突然发现中英文符号混输导致编译错误?或者在会议中手忙脚乱地寻找语言栏切换输入法&#…

作者头像 李华
网站建设 2026/1/3 1:38:53

Cocos SDK集成终极指南:多平台适配与组件化封装高效方法

Cocos SDK集成终极指南:多平台适配与组件化封装高效方法 【免费下载链接】cocos-engine Cocos simplifies game creation and distribution with Cocos Creator, a free, open-source, cross-platform game engine. Empowering millions of developers to create hi…

作者头像 李华
网站建设 2026/1/8 10:00:20

算法:基础算法做题记录

点击查看代码P4047 [JSOI2010] 部落划分要求距离最远的部落距离最小,依然二分答案。但是判定时需要贪心地选择最近的两个部落合并,需要用到并查集维护集合。时间复杂度 �(�2log⁡��(�))O(n 2log…

作者头像 李华
网站建设 2026/1/7 18:46:23

Wan2.2-T2V-A14B生成结果的可控性与随机性平衡策略

Wan2.2-T2V-A14B生成结果的可控性与随机性平衡策略 在影视预演、广告创意和虚拟内容快速迭代的今天,AI视频生成已不再是“能不能做”的问题,而是“做得多好、多可控、多高效”的较量。传统T2V(文本到视频)模型常陷入两难&#xff…

作者头像 李华
网站建设 2026/1/9 19:54:42

5步掌握无名杀自定义武将开发:从入门到精通的完整教程

5步掌握无名杀自定义武将开发:从入门到精通的完整教程 【免费下载链接】noname 项目地址: https://gitcode.com/GitHub_Trending/no/noname 你是否曾经想要在无名杀游戏中创建属于自己的独特武将,却不知道从何入手?想要快速创建第一个…

作者头像 李华
网站建设 2026/1/7 12:06:15

ComfyUI-MultiGPU:单卡双倍模型容量的低成本扩容方案

你是否曾经面对这样的困境:心仪的最新大模型刚刚发布,却因为显存不足而无法在自己的设备上运行?或者想要生成更高分辨率的图像,却被显卡的物理限制所束缚?今天,我们将揭示如何通过智能分布式显存管理技术&a…

作者头像 李华