news 2025/12/31 10:00:49

告别盲目添加Agent!大模型Agent扩展的科学:预算感知与最优配置的数学公式!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别盲目添加Agent!大模型Agent扩展的科学:预算感知与最优配置的数学公式!

简介

Google最新研究首次将大模型Agent系统扩展问题转化为可量化科学问题。通过预算感知工具使用方法和BATS框架,研究发现多Agent系统的三条"铁律":工具超8个时开销指数级增长、单Agent能力超45%后收益为负、错误会被不同架构放大4-17倍。研究还构建了定量预测模型,可根据任务特征预测最优Agent架构,使Agent系统从经验驱动转向科学预测。


2025 年,LLM 社区出现两条明显的主线:

  1. Test-Time Scaling:不靠堆参数,而是靠“多想一想”“多试几次”把性能做上去。
  2. Agent 化:给模型工具,让它在环境里“滚雪球”式地迭代推理。

但一个尴尬的现实是——“更多 agent 就一定更好吗?”没人能定量回答。

Google 近期发出两篇工作,第一次把 agent scaling 拆成了可预测、可度量的科学问题

论文核心命题关键词
Budget-Aware Tool-Use Enables Effective Agent Scaling在“工具调用预算”约束下,如何让 agent 花得少、做得对?预算感知、工具效率
Towards a Science of Scaling Agent Systems给定任务,能否提前算出最优 agent 数量与协调结构?协调拓扑、任务可分解性

预算感知的Tool-Use

Budget Tracker 插件示意

图 1:Budget Tracker 作为轻量级插件,可同时服务于标准 ReAct(上)与高级框架 BATS(下)

2.1 核心痛点

  • 简单“加预算”≠ 提升性能:agent 缺预算感知,很快撞上天花板。
  • 工具调用 ≠ token:搜索、浏览、API 都有经济成本,需要统一度量。

2.2 解法一:Budget Tracker(即插即用)

  • 每轮把“剩余/已用”预算写进 prompt,零额外训练
  • 根据预算高低,自动切换“广撒网”↔“精准打击”策略。

效果(BrowseComp,Gemini-2.5-Pro):

  • 预算 10 → 100,继续 scaling;无 Tracker 的基线在 100 就饱和。
  • 相同精度下成本 ↓ 31%(搜索 ↓ 40%,浏览 ↓ 21%)。

2.3 解法二:BATS 框架(Budget-Aware Test-time Scaling)

模块预算感知做法
规划把“剩余工具次数”写进 checklist,动态决定“深挖”还是“换路”。
自检提出答案后,用剩余预算做反向验证;不通过则总结失败原因,压缩进记忆再开新路径。

结果:在 3 个信息检索 benchmark 上,BATS 一致优于并行/串行 scaling,且实际花费更低(见图 7)。

图 7:左图工具数-性能曲线,右图统一成本-性能曲线

03 Scaling科学:多 agent 的“盈亏平衡点”

图 1:跨模型家族的 Intelligence Index 与平均性能

3.1 实验规模 = 180 种配置“大横评”

基于客观复杂度指标的智能体方法架构对比。

维度取值
任务4 个真实 agentic benchmark(金融、网页、Minecraft 规划、办公流)
模型3 大家族 × 3 个尺寸 = 9 款 LLM
架构SAS + 4 类 MAS(Independent / Centralized / Decentralized / Hybrid)
总配置180 组,全部匹配 token 预算,排除实现差异

3.2 三条“铁律”被发现

表4 将性能与智能水平、任务属性以及实测协调指标相关联的完整scaling原理系数表

铁律数据说话业务启示
工具-协调权衡β = -0.267,p<0.001工具 > 8 个时,MAS 开销指数级放大,慎用!
能力饱和点单 agent > 45% 后,再加人收益为负先把单兵做强,再考虑团队协作
错误放大Independent 架构把错误放大17.2×;Centralized 压到4.4×无校验的“裸并行”= 自爆

表 5:不同架构的协调指标

3.3 定量预测模型

论文用 20 个可观测特征(工具数、单 agent 基线、效率、冗余、错误放大…)拟出混合效应模型

  • 交叉验证 R² =0.524,MAE = 0.089
  • 87% 的 held-out 配置被成功预测最优架构

在线计算器思路: 输入任务复杂度 T、单 agent 基线 PSA、模型 Intelligence Index → 输出期望性能最高的架构。

整套计算器的完整表达式

Agent scaling 进入“可预测时代”

两篇论文一口气把“花钱”和加人”两大 scaling 维度做成了可度量、可预测的科学问题:

  • 不再靠拍脑袋决定要不要上多 agent;
  • 不再盲目给 agent 无限工具预算;
  • 不再把“多 agent”当万能药。

2025 年做 agent 系统,终于有数学公式兜底了——有点东西

https://arxiv.org/pdf/2511.17006Budget-Aware Tool-Use Enables Effective Agent Scalinghttps://arxiv.org/pdf/2512.08296Towards a Science of Scaling Agent Systems

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/23 20:55:41

基于STM32智能图像识别自主学习录入物体场景设计

摘 要 本文介绍了一种基于 STM32F103C8T6 单片机的系统设计。该系统主要由单片机核心板、TFT 液晶显示电路、可选的无线通信模块&#xff08;无线蓝牙 / 无线 WIFI / 无线视频监控模块&#xff09;、蜂鸣器声光报警、摄像头模块、舵机模块、按键电路以及电源电路组成。通过各模…

作者头像 李华
网站建设 2025/12/23 20:55:33

小功率数控直流稳压电源设计

摘 要 在现代电子设备的研发、测试和维护过程中&#xff0c;稳定、精确的直流电源是不可或缺的。传统的直流电源往往存在调节不便、精度不高、缺乏保护机制等问题&#xff0c;难以满足现代电子设备的多样化需求。因此&#xff0c;设计一款小功率数控直流稳压电源具有重要意义。…

作者头像 李华
网站建设 2025/12/25 13:49:27

基于Stm32的人脸识别门锁控制系统

2 系统总体设计 2.1 系统功能设计 人脸识别门锁控制系统主要实现录入人脸图像&#xff0c;识别人脸图像&#xff0c;并且进行开门&#xff0c;关门的实现&#xff0c;通过摄像头模块进行拍摄人脸图像&#xff0c;并且通过按键电路模块控制相关录入图像&#xff0c;关闭图像&…

作者头像 李华
网站建设 2025/12/23 20:53:59

4 STM32学习板入门视频教程 STM32芯片功能介绍

欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~&#x1f447;热门内容&#x1f447; python使用案例与应用_安城安的博客-CSDN博客 软硬件教学_安城安的博客-CSDN博客 Orbslam3&Vinsfusion_安城安的博客-CSDN博客 网络安全_安城安的博客-C…

作者头像 李华
网站建设 2025/12/23 20:53:29

跨域 AD 混合环境权限失控?ADManager Plus 风险分析功能详解

在AD、Azure AD与Microsoft 365共存的混合IT环境中&#xff0c;身份滥用、权限泄露、配置漏洞等安全风险愈发突出&#xff0c;合规治理压力也与日俱增。卓豪 ADManager Plus 作为一站式 IT 审计与身份管理解决方案&#xff0c;其风险分析功能专AD、Azure AD 及 Microsoft 365 混…

作者头像 李华
网站建设 2025/12/23 20:53:16

从词汇到向量:Word2Vec如何捕捉语义关系

1.1 一个关键的洞察 在讲 Word2Vec 之前&#xff0c;我们先思考一个问题&#xff1a;人类是怎么理解一个词的含义的&#xff1f; 假设你第一次看到「Transformer」这个词&#xff0c;你会怎么理解它&#xff1f; 句子1&#xff1a;Transformer 是一种深度学习模型句子2&#xf…

作者头像 李华