当AI成为开发者：Agent基础设施架构设计与实战指南-平芜编程栈

文章探讨了AI Agent对基础设施软件的变革需求。传统Infra为人类设计，无法满足Agent的"惊群"模式和大规模并发。Agent开发引入不确定性，需工程师从工程思维转向科学实验思维。目前Agent Infra定义未明，各厂商从安全、沙箱等不同角度切入。未来重点包括可调试性、记忆管理、低延迟性能，以及从"服务Agent构建"到"服务Agent智能进化"的转变。

Infra 软件的主要使用者，正从人类开发者变成 AI Agent。

a16 今年的年终预测中，也明确指出：Agent-native 的基础设施将成为未来的基本门槛。

如今的企业后端是为「一次人类动作对应一次系统响应」的 1:1 比例而设计的。它的架构无法让单个智能体「目标」在毫秒级时间内递归展开成 5,000 项子任务、数据库查询和内部 API 调用。
2026 年我们将见证「原生智能体」基础设施的崛起。下一代系统必须默认应对「惊群」模式；冷启动时间必须缩短，延迟波动必须收敛，并发上限必须跃升数个量级。唯有能承受随之而来的工具执行洪流的平台，才能最终胜出。

但很明显，当下 Agent Infra 的基础设施并不完善，不管是代码的兼容性还是服务器的启动优化，甚至虚拟机的配置等，都还是为人类开发者的服务模式。AI Agent 对 Infra 的要求，与人类完全不一样。

这其中存在很多新的机会和可能性。

Agent Infra 的现状如何，还有哪些问题没有解决，未来更多的可能性会在哪些场景？就这些问题，我们与腾讯云 Agent Infra 团队和 Dfiy 的技术人员聊了聊，希望能搞清楚一些事情。

01 Agent 的落地范式跟 App 完全不同

之所以 Infra 层会有很大的变化，核心在于，AI Agent 今天的开发和落地范式，与以往的 App 完全不同了。

核心的区别就是不确定性的存在。

过去人类写代码，是靠大量 if、else 的逻辑判断来实现功能，现在转向了 Agent 的概率性目标规划。以前写下一行代码，机器严格执行；现在则更像一个老师的角色——通过提示词、RAG 这些技术，给模型提供背景信息，再设定一些原则去调教它，让它自主处理任务。这是一种更高级、也更先进的控制方式。

传统软件工程里，bug 是对既定规则的违反，修 bug 就像修水管，哪里坏了补哪里就行；但在 Agent 工程里，失败往往是模型对开发者意图的误解，或者说是概率上的「漂移」。你没办法像修水管一样去修复一个 Agent，只能像教育孩子一样，去引导它、说服它、约束它。

一个 AI Agent 的效果，是由模型、范式、提示词、上下文、工具体系，还有工具调用的参数选择等七八个因素共同决定的。这次效果不好，到底是模型的问题？提示词的问题？还是工具的问题？根本说不清楚。这些因素环环相扣，相互影响的关系很难明确界定，这完全符合「复杂系统」的定义。

更关键的是，它还是一个不确定性的复杂系统。同一个问题，这一刻问和下一刻问，哪怕输入完全一样，输出也可能不同。而我们过去熟悉的微服务系统，哪怕再复杂，调用关系都是清晰的，哪里报错、谁的责任，一目了然。从这个角度来说，微服务系统其实是「简单系统」，而且是确定性系统——只要数据库和数据关系不变，同样的输入必然会得到同样的输出。

不只是工作流变了，交付物也完全不同了。以前交付的是确定的功能，能明确界定「行」或「不行」；现在交付的是一种概率性的能力，你很难去定义什么是绝对的「正确」。

这种差异，对工程师来说是巨大的挑战。绝大多数工程师从入职第一天起，工作就是在确定性系统里进一步提升确定性，判断标准只有「对」和「错」。但现在我们面对的是不确定性的复杂系统，工作方式必须彻底转变。

这种转变主要体现在两点：

第一，从工程思维转向科学实验思维。工程思维是预先设计好整个系统；而科学实验思维的核心，是建立一套评测体系，把复杂系统拆解成一个个子系统，屏蔽其他子系统的干扰，去单独评测每个子系统的影响。只有通过这种控制变量的方式，一步步摸索，才能驾驭 Agent 的复杂性。
第二，从 Day One 思维转向 Day Two 思维。Day One 思维是代码上线、提供服务后，再根据用户需求去优化；但在 Agent 领域，上线第一天只代表它能跑起来了，真正的效果优化才刚刚开始。

Agent 落地远不止靠几个巧妙的范式，而是需要用工程方法，以确定性去驾驭不确定性，不断优化工程基础，才能真正落地。也正因此，针对 Agent 的 Infra 层建设，是一件非常复杂的事。

而且，Agent Infra 与过去两年业界讨论的 AI Infra 也完全不同。

AI Infra 更关注的是模型的算力、优化和推理，如何以最快、最稳定的算力服务让模型输出内容。

而 Agent Infra 关注的是项目的最终结果输出，上层的逻辑、记忆和工具调用。如何编排、如何管理记忆、如何调用各种工具接口，如何更稳定在沙盒里运行的问题。

算力正变成水和电，Agent Infra 才能做出产品服务的差异化。

02 但 Agent Infra 的定义还没有完全明确

很明显，Agent 已经成为当下 AI 应用的主要落地方式，Agent Infra 的前景一片大好。但在腾讯云的专家看来，Agent Infra 的定义和边界，目前其实还没有完全定型。

先区分两个概念：一个是「本质复杂度」，一个是「偶然复杂度」。比如企业要完成一笔交易转账，这是必须解决的核心问题，属于本质复杂度；而转账过程中可能会涉及到重试机制、权限校验、容错处理、数据上报等等，这些是因为工具和方法选择带来的附加问题，就属于偶然复杂度。

整体上来说，Infra 层的核心作用，就是帮企业解决落地过程中的偶然复杂度。问题在于，Agent 落地的场景千差万别——医疗场景要解决数据隐私问题，代码场景要解决生成质量问题，不同场景的偶然复杂度完全不同，所以 Agent Infra 该解决哪些问题，没办法一概而论。

不同的团队，切入 Agent Infra 的角度不同。腾讯云的思路，是聚焦于所有场景下偶然复杂度的「最大公共子集」，也就是不管什么行业、什么场景，开发者都必须面对的共性问题：安全问题、执行环境问题、工具体系问题、记忆问题、可观测性问题。

这些共性问题里，工具和安全沙箱的需求尤为突出——毕竟 Agent 的自主运行能力，带来的安全风险和破坏性太大了。他们从「如何驾驭自主运行」这个点切入，推出了 Agent 沙箱服务。相当于给每个 Agent 配了一台专属「个人电脑」，但又能把它牢牢限制在预设的工作范围内。

Agent 沙箱的安全防护是全方位的：从虚拟化层面限制 Agent 的操作边界，网络层面审计对外访问权限——哪些接口能调、哪些不能调；还有凭证层面的管理，给沙箱分配唯一的权限凭证，就像工牌一样，既能验证身份，又能管控访问范围，确保 Agent 只能在指定「工位」上完成指定任务，不会去「别的楼层」，不能去做别的事情。

这也是当下的 Agent 构建过程中偶然复杂度里的最公共的问题，如何让用户更放心地让 Agent 去处理现实世界的一系列问题。

目前几个大的海外云厂商都有推出自己的 Agent Infra 产品，Google Cloud 推出了 Vertex AI Agent Builder，AWS 推出了 Amazon Bedrock AgentCore，Microsoft Azure 则在 8 月份推出 Agent Factory，腾讯云当前主打的是刚推出不久的 Agent Runtime 解决方案。各家切入的角度有所不同，但其底层逻辑是相通的，从运维出发，先资源后应用和开发，再到安全和智能化，由下至上，先在共性需求上形成坚固基础，然后再向差异性需求拓展。

但本质上，云厂商们现在提供的产品基本是从上个时代演进过来的，并不是用全新范式思考的。Agent 尚未像传统 app 那样大规模出现，大家现在并不知道完备的 Agent Infra 范式是什么样子。

换句话说，不是看不到范式，而是它本身还不存在。

03 今天的 Agent Infra，

主要在服务哪些场景？

LangChain 最近发布的 Agent 年度报告中显示，客户服务、研究与数据分析是目前 Agent 最火热的两大应用方向，用户日常工作中最常用到的 Agent 主要有 Coding、数据处理及深度研究。

这也基本决定了目前的 Agent Infra 主要服务的场景。

Vibe Coding：除了专业的 Coding 软件外，各类 chatbot 中的应用生成功能也提供了 Coding 的功能，并且都转向了云端模式。如 AI 编程、前端页面生成、云端 IDE 等。AI 生成的代码在云端沙箱环境中运行，与本地彻底隔离，既能避免入侵风险，又具备更强的资源弹性与可扩展性。
深度研究、数据处理：办公 Agent 可以通过代码生成的方式完成数据清洗、数据分析、图表制作、甚至 PPT 制作。所有代码均在云端沙箱中运行，与本地彻底隔离，既安全可信，又具备弹性算力。
GUI Agent：依托云端各类 Use Agent 的能力，让 Agent 能够在不同环境中模拟人机操作，Browser Use Agent、Computer Use Agent、Mobile Use Agent 等，在云沙箱的助力下，覆盖 Web、桌面和移动端场景，成为真正的虚拟员工。
强化学习场景：Agent 通过反复尝试、反馈和优化逐步掌握复杂界面操作。

开发者对于 Agent Infra 层的需求，聚焦在两点：极致的使用体验，完善的生态兼容性，尽量降低开发成本。

具体来说，API 的统一兼容就很关键。如果每家厂商的 API 都不一样，用户接入时会非常痛苦。就像云计算早期的 S3 对象存储 API，各家高度统一，用户用起来就很方便。腾讯云的沙箱服务既有腾讯云标准的云 API 版本，也兼容了社区里像 E2B 这类主流方案，大大降低了用户的接入门槛。

而且在这种情况下，闭源的系统级别方案有很大的优势。因为极致的体验，往往需要多个环节环环相扣、深度优化才能实现。

举个例子，腾讯云的沙箱服务能做到全球领先的启动速度——80 毫秒。这个技术，即使是代码全部开源，用户也很难复刻。这需要从底层的计算、网络、存储层面做镜像加速、预热和分发；还要在操作系统层面优化 cgroup、网络设备命名空间的创建逻辑，破除并发竞争的锁机制；在虚拟化层面用快照技术，避免真实开机的耗时；在 OCI 层优化进程管理，在调度层实现多集群、跨地域的智能调度。

这一系列环环相扣的不同层次的技术相互组合，以及大量的技术运营，大量的工程师的维护，才能给用户提供这样的一个极致的体验。

腾讯内部的一些 Agent 产品，从传统方案切换到 Agent Runtime 沙箱后，成本直接节省了 90% 以上。

内部比较典型的场景有两类：

Agent 产品内的应用生成或者数据处理功能：在产品内生成一段代码或者分析一份数据，点击「运行」按钮后，后端都会立刻新建一个沙箱，把代码或 Excel 表格放进去执行。

在腾讯云的实测中，全球绝大多数同类 Agent 产品，点击运行后都需要秒级等待；而 Agent Runtime 能做到端到端 200 毫秒，这个时间包含了沙箱启动、代码运行、数据通信的全流程。同时还能解决安全问题——比如不会出现代码请求读取系统文件，Agent 就真的把机器上系统文件返回给用户的风险。

第二类是背后的技术支撑场景，比如 Agent 强化学习，让 chatbot 产品搜索某个信息，它需要从海量资料里筛选出最匹配的内容。这个过程不只是从 RAG 数据库里调取片段，还需要通过强化学习提升理解和筛选的精准度。

在强化学习的训练阶段，Agent 需要让模型同时处理上万个任务，相当于让一万个 Agent「刷题」，再通过奖励机制判断对错，完成一轮训练。这个过程中，「刷题」生成结果的时间占了整个训练时长的 60% 以上。这个时间越短，模型的迭代效率就会大幅提升。

为什么我们会感觉到很多 Agent 产品的能力在不断变强，背后就是这类底层技术在支撑。

04 给 Agent 做基建，

创业机会在哪里？

在 Agent Infra 范式还没有明确标准的时候，给 Agent 做基建，并不只是大厂的赛道，谁跑得快，谁能更快更好支持 Agent 的需求特性，谁就有可能更快拿下市场。

写代码、试想法、做原型，这些过去必须由专业工程师完成的事情，现在可以被 Agent 以极低的边际成本实现。AI Agent 第一次把「计算」这件事，真正意义上地民主化了。很多以前算不过账的事情，不太经济的商业模式，突然变得合理了。

比如明星 Agent 产品 Manus 背后就使用了开源数据库 TiDB Cloud，因为可以更好实现「看起来像独占，实际上是虚拟化」的设计，在实现极致资源复用的同时，又能让 Agent 在交互层面随意折腾：可以建表、删表、跑实验、写垃圾 SQL，而不会影响别人，也不用担心副作用。

在行业内人士看来，哪些方向会是 Agent Infra 未来的新重点？

Dify 认为可调试性、记忆管理和低延迟性能是下一阶段的重点。

首先是可调试性，要做可视化的推理链调试，让开发者能一眼看明白 Agent 到底是在哪一步理解错了，精准定位问题。

然后是记忆管理。不是简单生硬的向量搜索，而是要实现语义化的情景记忆。因为 Agent 对记忆的理解，短板不在于存储了多少历史信息，而在于缺乏对时间维度的建模能力。当前 Agent 的时间感知能力其实很薄弱：prompt 的时间是一次性的，会话级别的时间关联很弱，长期记忆更是处于不可控的状态。但现实中的任务往往存在延迟决策、状态衰减的特点——不同时间节点的信息权重不同，未来的不确定性也会影响当下的行动。

对 Agent 记忆的管理，不能再停留在「常量」的思维定式里，而是要把它看作一种「变量」。

同时，基础性能层面的低延迟要求也得跟上。现在的流式输出已经满足不了需求，需要达到语音实时对话的响应速度，才能支撑更自然的交互场景。

在腾讯云的专家看来，未来应该关注的核心方向，是从保障 Agent 安全可靠运行，升级到支撑 Agent 实现智能持续进化。

在他们看来，Agent Infra 和 AI Infra 并不是割裂的，而是一种交叉关系。先把 Agent 稳定地部署到生产环境中，让它跑起来之后，就会在实际业务里发现它的能力短板，同时产生大量的业务数据。腾讯云要做的，就是把这些数据充分利用起来，反过来对 Agent 本身，以及它背后的基础模型进行迭代优化，最终形成一个智能进化的闭环。

但就目前来看，现有的 Infra 体系，更多还是聚焦于服务基础大模型本身的能力与智力进化，并没有搭建起完善的链路，去支撑那些已经在业务中落地的 Agent——也就是没能利用 Agent 产生的真实行为数据、能力短板数据，来构建专属的 Agent 进化循环。

所以，下一步 Agent Infra 的核心突破点，一定是完成从「服务 Agent 的构建与运行」，到「服务 Agent 的智能进化」的跨越。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

当AI成为开发者：Agent基础设施架构设计与实战指南

01

Agent 的落地范式跟 App 完全不同

02

但 Agent Infra 的定义还没有完全明确

03