Anthropic: building effective AI agents
https://www.anthropic.com/engineering/building-effective-agents?via=aitoolhunt
从Anthropic在行业内成功实施Agent的落地case来看,无一不是使用了简单+可组合的模式,而非复杂的框架和特殊的库。大道至简。
就像AI/AIGC/GenAI一样,大家对Agent的概念和理解也多种多样,很多业务人员甚至把KG支持的Chatbot叫做Agent。Anthropic把Agent多样的理解和变种,统一叫做智能体系统 - Agentic System。Agentic System从架构层面分为Workflow和Agent,并做了重要的区分。
- Workflow:LLM和Tool经过预先定义和精心编排
- Agent:LLM动态指导自己的流程和工具调用,并始终保持对完成任务方式的控制
在垂直领域中,需要尽量找到最简单的解决方案路径,在必要的时候才增加系统复杂性。很多场景根本不需要Agent,Agent会牺牲延迟和成本,来换取更好的性能,垂直领域场景需要考虑这种trade off值不值得。
在垂直领域场景中,对于能够被定义的很好的任务,同时需要保证可预测性和一致性时,选Workflow(Dify当前在做的事情)。当大规模需要动态灵活性且模型自主驱动决策时,选Agent(Manus想要做的事情
有很多框架,让Agent的构建变得简单。比如LangGraph,Dify。这些框架通过标准化通用组件和功能,形成了一些额外的抽象层。抽象层会掩盖掉过程的提示和反馈,增加debug的复杂度。所以这些框架看似简化了问题,实则也会复杂问题。当一个简单解决方案足矣满足垂直场景需求的时候,就不要使用这类框架。不了解这些框架抽象层背后的原理,形成了对底层不正确的假设,是在这些Agent框架被应用过程中最常见的一种错误。
Agentic System的进化是通过Block,Workflow和Agent逐步实现的。根据垂直领域Agent的应用场景,总结了Agent的7大应用架构,从易到难依次来介绍:
- Building Block: The Augmented LLM
增强型LLM。基于Agent系统的要求,增强基础LLM的功能。借助MCP框架,LLM可拓展工具链。检索 - 自动生成查询语句,工具 - 选择场景最适合的工具,记忆 - 决定什么信息要保留。根据需要为LLM定制这些能力,形成Agent最基础的组件(block)。
- Workflow: Prompt Chaining
提示串型Workflow。将任务分解为串行步骤,中间环节增加检查点,保证整体流程在按计划进行。
适用场景:任务可以被容易清晰地分解为固定简单的子任务,目标是通过牺牲延迟性来换取更高的准确性。
示例:市场营销文案,并翻译为不同语言。编写文件大纲,确认大纲是否符合某些标准,返工迭代,然后根据大纲编写文件。
- Workflow: Routing
路由型Workflow。将大任务按照不同类别进行分解,并针对分解的任务,建立更专业的提示。否则诊断一种类型任务的优化,可能会对其他任务产生影响。
适用场景:任务相对复杂,类别相对明确。通过LLM或更传统的分类模型进行任务拆解。
示例:客户服务查询(一般问题、退款请求、技术支持)导向不同的下游流程、提示和工具。将简单/场景问题交给小模型,困难/异常问题交给大模型。
- Workflow: Paralleization
并行Workflow。并行同时执行一项任务,然后汇总结果。并行方式有两种:①分段:任务分解为独立子任务并行运算,提高执行速度;②投票:多次运行同一任务,以获得不同输出结果,提高置信度。
适用场景:当有多个因素时,每个因素由单独的LLM调用处理,性能通常会更好,从而可以集中关注每个特定的方面。
示例:①分段并行 - 当一个模型实例在处理用户查询时,另一个模型对用户查询进行安全审查,防止出现不恰当的内容或请求。②投票并行 - 评估一段代码是否有漏洞,通过多个不同的提示来评估不同方面或要求的投票阈值,来平衡漏报和误报。
- Workflow: Orchestrator-Workers
协调者型Workflow。中央协调者LLM会动态分解任务,并将其分配给工作者LLM,并综合其结果。
适用场景:无法预测所需子任务的复杂程度。拓扑结构和并行化类似,但主要区别在于其灵活性,子任务不是预先定义的,而是由协调者根据具体输入确定的。
垂直场景示例:每次从不同的来源收集和分析信息,以查找可能相关的搜索任务。
- Workflow: Evaluator-Optimizer
评价器-优化器Workflow。一个生成响应,另一个提供评价和反馈。类似强化学习。
适用场景:有明确的评估标准,且迭代改进提供了可衡量的价值,会很有效。两个关键的衡量点,1-人类明确提出反馈意见时,LLM的响应明显得到改善;2-LLM可以提出此类反馈
复杂的搜索或推理任务,需要多轮搜索和分析才能收集到全面的信息,由评估员决定是否需要进一步探索。
- Agents
真正意义上的Agent。其工作模式是,一旦任务明确,智能体就会独立进行规划和操作,并有可能返回人类获取进一步的信息或判断。在执行过程中,智能体从环境中获取每一步的 “基本事实”(如工具调用结果或代码执行情况)以评估其进度至关重要。然后,智能体可以在检查点或遇到阻碍时暂停,以获得人工反馈。任务通常会在完成后终止,但通常也会包含停止条件(如迭代的最大次数)以保持控制。这种模式下,清晰完善的设计工具集及其文档至关重要。
Agent可用于开放式问题,在这种问题中,很难或不可能预测所需的步骤数,也无法硬编码出固定的路径。LLM可能会运行多个回合,你必须在一定程度上信任它的决策。智能体的自主性使其成为在可信环境中扩展任务的理想选择。
与任何LLM功能一样,成功的关键在于衡量性能和迭代实施。要记住只有当复杂性能够明显改善结果时,才应该考虑增加复杂性。
在实施Agentic System时,尽量遵循三个核心原则:
- 保持智能体设计的简洁性。
- 明确显示智能体的规划步骤,优先考虑透明度。
- 通过详尽的工具文档和测试,精心设计智能体-计算机接口(ACI)。
框架可以帮助快速入门,但当进入生产阶段时,要开始减少抽象层并使用基本组件构建。遵循这些原则,就能创建出不仅功能强大,而且可靠、可维护并深受用户信赖的Agentic System。
最近有意思的几个新闻:
懂王带着一众商业大佬去沙特带货,让英伟达接了一大笔订单。(之前被禁售令卡的不行的老黄,现在可开心了,之前有多恨懂王,现在就有多爱懂王🙂)。老黄开心了,懂王又开始搞东大,这不年初说可以卖的H20,现在又黄了。年初风风火火找我们推销Azure和AWS H20 RI的朋友们,现在也都销声匿迹了。
本次大会上,老黄的一个观点很有意思。他对当前和未来AI形态定义了四个阶段,分别是感知AI-生成式AI-具身AI-物理AI。物理AI是终极难题,数学世界的多维很容易(多加个字段而已),物理世界的三维对AI都很难。
另外一个有意思的消息,深度学习三巨头,图灵奖获得者,现代AI教父之一杨乐坤Yann Lecun,最近在巴黎2025 AI行动峰会上,讲了一些自己对AI趋势的判断。当前以LLM为基础的路径无法实现对物理世界的理解;如果要研究人类世界的AI,放弃LLM;LLM无法带领我们走向AGI。
乐坤作为LLM的忠实"反对者",一直以来经常在各大场合去唱反调。世界模型、人类AI、物理AI,本质上都在讲一件事,而当AI真正开启物理世界的大门,理解物理定律,理解物理世界常识,理解重力、惯性、因果关系、物质守恒定律、遮挡等,人类进入AGI也将开始将进入倒计时。正如最早源自古希腊哲学家亚里士多德提出的一个第一性原理哲学术语:“每个系统中存在一个最基本的命题,它不能被违背或删除。”
乐坤在学术界的地位毋庸置疑,虽然经常"唱唱反调",但也不妨碍他带队持续推出LLaMA大模型的升级迭代。这种百家争鸣的方式其实挺好的,各家都能保持在自己的领域和方向健康持续的发展,时不时拿出来辩一辩也挺好的。
最后,最近最重磅的一个新闻,就是红杉资本的AI闭门会。从会议的讨论结果来看,当前已经具备了AI发展所需的所有要素,从历史的发展来看,这些浪潮是叠加的(半导体-操作系统-局域网-互联网-应用程序-移动互联网-AI),这些积累的技术浪潮,将我们带到了现在,AI是迫在眉睫且不可避免的,机会比之前的浪潮要大得多,AI的真正到来也将快的多。
未来AI的商业形态,不是Chatbot,不是Agent。AI未来会变成操作系统,而人类在这系统中,也许就是个接口。AI不是风口,而是工业革命,如果拒绝使用AI,就等于主动退出竞争。AI将彻底重新书写工作模式,未来的竞争力不在工具和代码上,甚至不在技术上,更有可能在意识上。
AI时代的人类,还需要掌握哪些权力,才能保持自己的不可替代性,总结三点:1.任务拆解权:变为意图设计者;2.系统调度权:让AI代理为你"排兵布阵";3.信任乘数权:在算法洪流中构建无法被复制的信誉护城河。
再展开说两点,任务定义+方向把控。
- 场景定义力:你能设定目标,AI才能执行路径。把模糊意图转化为结构化任务。AI擅长做,却不懂该做什么。需要具备:精准描述问题/拆解目标优先级/为系统设置边界条件。
- 信息生成力:你不是输出内容,而是在积累信誉资产。在大量AI生成内容泛滥的时代,可信度和判断力,将成为最大稀缺。需要具备:稳定、风格清晰的输出模式/可验证的结果交付记录/在特定系统中建立"不可替代接口"。
很多人开玩笑形容当前的AI为"脱裤子放屁"。以coding场景为例,你想要的是代码吗?你想要的是代码构建好的App。也就是说现在的AI,还处于中间过度状态,这个中间状态可能很快就结束,Agent的到来会进一步加速这个过程。
最后总结一下,SaaS时代的逻辑是为功能付费,而AI时代的逻辑是为结果付费!
想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享!
👇👇扫码免费领取全部内容👇👇
一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势
想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI:
1. 100+本大模型方向电子书
2. 26 份行业研究报告:覆盖多领域实践与趋势
报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:
- 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
- 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
- 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
- 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战
PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:
- 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
- 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
- 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
- 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走
想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!
1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位
面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析:
2. 102 道 AI 大模型真题:直击大模型核心考点
针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:
3. 97 道 LLMs 真题:聚焦大型语言模型高频问题
专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:
![]()
三、路线必明: AI 大模型学习路线图,1 张图理清核心内容
刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!
路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。
L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。
L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。
L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。
L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。
L5阶段:专题集丨特训篇 【录播课】
![]()
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇
2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!