news 2026/4/23 13:24:28

大模型的探索与实践-课程笔记(四):Agent与Multi-Agent

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型的探索与实践-课程笔记(四):Agent与Multi-Agent

Take-away Messages

  • Agent智能体
    • 让大模型能够调用工具
    • 规划、记忆、行动
  • Manus / OpenManus
    • 在本地部署OpenManus
  • Multi-Agent
    • 任务分解、任务联动
  • Coze
    • 利用Coze构建智能体

1.1 从大模型(LLM)到智能体(Agent)

1. 概念演进:为什么需要 Agent?

  • Prompt 角色扮演的局限:传统的 Prompt(如“你现在是唐代诗人李白...”)只能改变模型的输出风格和分布,但它没有行动能力。纯 LLM 无法帮你“定闹钟”、“自动扫码签到”。

  • Agent 的本质:Agent 是拓宽了大模型边界的系统。它以大模型为“大脑”,赋予其自主调用工具的能力,使其能够与外部环境交互,从而完成复杂的现实任务。
如果只用prompt,有哪些任务无法完成
  • AI 无法直接帮你设定闹铃
  • AI 无法直接帮你课堂签到
如何让AI更加自主的完成任务? -- agent

2. Agent 与传统 Workflow 的区别

  • Workflow(工作流):流程是定死的(例如:必然先查文献 → 再写摘要 → 再写正文),缺乏灵活性。
  • Agent(智能体):流程是动态且自主的。大模型先给出总规划,在执行第一步后,如果发现结果不好或方向不对,大脑会自主修正下一步的计划,无需人类干预。

1.2 Agent 的三大核心能力

一个合格的 Agent 必须具备以下三大支柱能力,缺一不可:

1.2.1 能力一:规划(Planning / 感知与决策)

  • 感知(多模态能力:要求 Agent 既能看懂文本,也能处理图像、语音,甚至能统一理解不同软件工具的“工作语言”。
    • 将多种模态“翻译成同一语言”(映射到同一空间)
    • 将多种模态“拼接在一起”
  • 决策(任务拆解:AI根据既定模糊目标,自主拆解出子任务,判断执行顺序,并应对潜在变量。大模型能够将模糊的目标转化为可落地的结构化方案。
    • 举例:“制定北京三日游计划” ——查交通 → 查酒店 → 排景点 → 算预算

1.2.2 能力二:行动(Action)

  • 调用工具:Agent 可以调用 API 或运行程序。如调用 Python 环境执行代码(Cursor/Trae 的底层逻辑),或调用网络搜索接口。
  • 大模型直接输出程序代码有问题,用大模型调用python
  • 大模型可能不知道最新的论文,用大模型调用arxiv的API
  • 多步任务与思维链(CoT, Chain of Thought)
    • 处理复杂任务时,Agent 需要拆解步骤。
  • Zero-shot CoT:只需在提示词加入“Let's think step by step”
  • Few-shot CoT:在给模型的样例中,不仅给答案,还写出详细的中间推导过程
  • 问题:目前学界正在反思,大模型生成的 CoT 究竟是它“真的在思考”,还是它只是在生成“看起来像在思考”的文本?

1.2.3 能力三:记忆(Memory)

解决早期大模型“聊几句就忘了自己是谁”的健忘症。

为什么AI突然“忘了”自己是谁? ——大模型对长文本任务表现往往不够好
  • 忘记自己的身份信息
  • 忘记以往的对话信息
对于多轮对话来说,不明确依赖对话历史的单纯的交互难以保持角色设定的一致性
以及对于上下文的理解
  • 短期记忆(对话历史压缩):将System Prompt(系统预设,如“你是福尔摩斯”)+Chat History(历史对话)打包送给模型。由于目前长文本技术的发展,大模型可轻松处理 200k tokens,短期记忆问题已基本解决。
    • 工程实现中引入了对话记忆机制。我们可以选择将对话历史直接插入提示词中,
      但随着对话的积累,如何写入、管理记忆、构造提示词又引发了新的疑问。

  • 长期记忆(Memory Bank / RAG):面对超长的交互(如阅读成千上万行代码),单纯增加上下文窗口不够用。需要使用专门的机制,将历史对话总结成事件和用户画像,存入外部数据库,需要时通过 RAG(检索增强生成)提取相关记忆。

2.1 多智能体(Multi-Agent)的设计哲学

1. 什么是多智能体

Multiagent:通过赋予单个agent专门的职责设定,构建agents之间的通信, 从而:
  • 提供任务分解和专业化,分而治之,降低单个任务的复杂性
  • 提供鲁棒性与容错性,例如代码审查
  • 模拟复杂系统,模拟真实世界的社会、经济或组织动态

2. 为什么需要多智能体?

  • 单一模型的局限(不够专精):如果一个事物想越“通用”,它在垂直领域往往表现就越差(什么都懂一点 = 什么都不精通)。
  • 分而治之:Multi-Agent 类似于 Agent 领域的CoT。通过赋予不同 Agent专门的职责设定,让它们分别做自己最擅长的事,然后相互通信,从而降低单个复杂任务的错误率。
  • 对抗与协作机制
    • 例如写代码任务,不要让一个模型直接输出。可以设计两个 Agent:一个Programmer(程序员)负责写代码,一个Inspector(审查员)负责找 Bug 并出教程,两者自动循环纠错,直到输出完美结果。
动手来制作属于自己的agent吧!

2.2 Coze (扣子) 进阶开发

Coze是字节跳动推出的一站式 AI 应用开发平台,支持无代码 / 低代码方式,通过拖拽模块、集成插件与知识库等功能快速构建 AI 智能体或应 用,并可发布至多平台或集成到业务系统,大幅降低 AI 开发门槛。

本节课手把手拆解了在 Coze 创建高质量 Agent 的底层参数调优避坑逻辑

1. Prompt 的结构化与优化

  • 自动优化功能:不要自己干想!先写出简单需求(如:写一首周杰伦曲风的歌),直接点击左上角“自动优化提示词”,Coze 会自动帮你扩写成标准的【角色设定】+【技能列表】+【限制条件】的结构化 Prompt。

2. 模型选择与参数精调

  • 选择合适的模型,尤其注意是否需要视觉能力;设置上下文轮数与最大回复长度
  • Top P(多样性控制)
    • 数值越大,模型生成的词汇越多样、越有创意;数值越小,模型会截断低概率词汇,生成越死板但精确。
    • 写诗、写歌、做游戏,调大到0.9左右(偏创意);写严肃论文、搜资料,调小到0.3~0.4(偏精确)。
  • 重复句惩罚(Repetition Penalty)
    • 原理:大模型(尤其带深度思考的模型)极易陷入“车轱辘话”死循环。
    • 实操建议:务必添加适量惩罚值(如 0.01~0.02),迫使模型输出新信息。
  • 上下文轮数(Context Turns):文字游戏类 Agent 必须调高,否则聊到后面模型会忘记开头的人设和规则。

3. MCP 插件使用

  • 不要贪多:给大模型挂载的工具不是越多越好! 插件过多会导致大模型不知道该掉用哪一个,最终报错或装死。
  • 检查 API依耐性:很多第三方插件事实上需要你在参数里填入自己的Base URLAPI Key,如果不填,调用必定失败(体现为模型拒绝输出结果或报超时错)。

2.3 Workflow(工作流)的搭建与逻辑

1. 什么是工作流?

将多个大模型、插件通过可视化连线(输入 → 输出)组合在一起。

2. Agent 与 Workflow 的核心区别

  • Agent:告诉它有哪些“技能(插件/模型)”,它自己动脑子决定先用哪个、后用哪个。
  • Workflow:把流程定死了,必须按你连的线一步步走。
  • 何时用工作流?对于流程极度固定、步骤明确的任务(如:长文分段写作、固定格式打分),用 Workflow 更稳定,可避免 Agent 的“想太多”导致的幻觉。注意:Workflow 必须发布后才能在智能体中稳定供其自主调用。

2.4 底层架构对比

在处理复杂任务时,三种架构的能力对比:

架构模式运行机制核心能力特征优缺点对比
Single LLM (单大模型)原生对话,靠 Prompt 引导任务无外部工具,无分工最弱。无法融合不同专精的模型(如用模型A写词、模型B编代码)。
Workflow (工作流)节点被连线“定死”,按顺序强行执行No Planning (无规划能力)优:流程绝对可控,无视模型脾气。
缺:一旦中间一个节点挂了,后续全部完蛋,不能跳步
Multi-Agent (多智能体)多个专精 Agent 相互配合,共同完成任务Has Planning (有自主规划能力)优:灵活性极高。遇到某个 Agent 报错卡死,它能自主跳步/绕路,找别的办法完成任务。
缺:不太听话,有时不按预期路线走。

延伸前沿概念:世界模型(World Model)与 Sora

  • 世界模型(World Model)的定义:判断一个 AI 是否具有世界模型,核心在于它是否感知并掌握了人类世界的物理规律(Physics)。
  • 大模型的痛点:传统的文本大模型不知道“苹果松手会掉在地上”,它只是概率预测。
  • Sora 的突破:在视频生成中展现了极强的空间能力、时间连续性和物理规律(流体碰撞、遮挡关系)。它不仅是在画图,而是在大脑中“建构了一个符合物理常识的三维世界”。

核心 AI 工具

本节课重点展示并解析了多个应用级与底层 AI 工具/模型,汇总如下:

工具/模型名称类别核心功能与特色应用领域
Manus商业级 Agent现象级多功能聚合智能体。能根据模糊指令自主拆解任务、调研资料、编写代码并生成最终产物(如开题报告、小游戏、PPT)。注意:目前国内IP受限且价格昂贵全自动任务闭环:日常办公、简单游戏开发、资料汇总等自动化处理。
OpenManus开源 Agent 框架Manus 的开源简易复现版。支持本地部署,可接入第三方大模型 API(如 DeepSeek)来实现类似 Manus 的自主任务规划与执行。本地化 Agent 开发与部署:适合开发者自定义、低成本体验 Agent 能力。
CLIP多模态模型方案OpenAI 提出的对比学习模型。将“图片”和“描述图片的文字”映射到同一个“概念空间”(翻译成同一语言),实现跨模态理解。感知与识别:为 Agent 提供基础的图文匹配与多模态感知能力。
Flamingo多模态模型方案DeepMind 提出的模型。在冻结的语言模型中插入交叉注意力层,将多种模态“拼接”在一起,实现强大的少数样本学习和视觉理解。视觉理解:赋予大模型(Agent大脑)“看”的能力。
ArXiv API学术工具接口学术预印本平台 ArXiv 提供的接口。Agent 可通过调用该 API,直接获取最新的未排版学术论文(如 LaTeX 源码),解析准确率远高于直接读取 PDF。学术检索与工具调用:Agent 获取最新科研前沿数据的核心抓手。
工具/项目名称工具类别核心功能与特色在本课/应用领域的场景
Coze (扣子)智能体开发平台字节跳动推出的一站式低代码 AI 开发平台。支持插件调用(MCP)、工作流编排和多平台一键发布。搭建专属 Agent:如带人设的单人剧本杀、测试问卷、自动做歌/写文案机器人。
Suno / Suno AIAI 音乐生成强大的音乐生成模型,所作歌曲具极高“流行度”和“抓耳感”。可通过 API 接入 Coze 成为插件。音乐创作:根据大模型写出的偏好、歌词,全自动谱曲并演唱。
SoraAI 视频生成大模型具备惊人的“世界模型”能力,能理解物体在三维空间的关系与物理碰撞规律,生成电影级运镜视频。视频自动化生成:输入 Prompt 生成高逼真度物理规律和人物互动的短片。
AI Town / 生成式智能体多智能体模拟环境斯坦福/港大等研究的项目。在一个电子小镇中投放几百个拥有独立性格、记忆的 Agent,让其自主社交、生活。社会学/经济学模拟:无需真人实验,通过 Multi-Agent 模拟人类社群行为。
Claude大语言模型被老师特别提及,在纯文本/非图形界面的 Prompt 编写和深度逻辑表现上,体验甚至优于 GPT。强逻辑文本处理与代码辅助。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 13:19:57

5分钟快速上手:Unlock-Music浏览器音乐解密终极指南

5分钟快速上手:Unlock-Music浏览器音乐解密终极指南 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web 项目地址: https:/…

作者头像 李华
网站建设 2026/4/23 13:19:56

清华PPT模板终极指南:3分钟打造专业学术汇报演示

清华PPT模板终极指南:3分钟打造专业学术汇报演示 【免费下载链接】THU-PPT-Theme 清华主题PPT模板 项目地址: https://gitcode.com/gh_mirrors/th/THU-PPT-Theme 还在为学术汇报的PPT设计而烦恼吗?THU-PPT-Theme项目为你提供了一套完整的清华大学…

作者头像 李华
网站建设 2026/4/23 13:16:35

如何用AntiDupl.NET彻底清理重复图片:终极免费去重工具完整指南

如何用AntiDupl.NET彻底清理重复图片:终极免费去重工具完整指南 【免费下载链接】AntiDupl A program to search similar and defect pictures on the disk 项目地址: https://gitcode.com/gh_mirrors/an/AntiDupl 你是否曾被电脑中堆积如山的重复图片困扰&a…

作者头像 李华
网站建设 2026/4/23 13:15:37

告别网盘限速烦恼:LinkSwift八大平台直链解析工具完全指南

告别网盘限速烦恼:LinkSwift八大平台直链解析工具完全指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / …

作者头像 李华
网站建设 2026/4/23 13:13:42

【YOLOv11】037、YOLOv11模型加密与保护:模型加密、混淆与防篡改技术

上周有个项目差点出事。客户部署在边缘设备上的YOLOv11模型被人完整dump出来,连后处理逻辑都被逆向还原了。 对方拿着我们的模型文件直接集成到竞品里,训练时加的定制化trick全白给了。这事让我意识到,模型保护不是“可有可无”,而是交付环节的生死线。 今天咱们就聊聊YO…

作者头像 李华