大模型的探索与实践-课程笔记（四）：Agent与Multi-Agent-平芜编程栈

Take-away Messages
Agent智能体
让大模型能够调用工具
规划、记忆、行动
Manus / OpenManus
在本地部署OpenManus
Multi-Agent
任务分解、任务联动
Coze
利用Coze构建智能体

1.1 从大模型（LLM）到智能体（Agent）

1. 概念演进：为什么需要 Agent？

Prompt 角色扮演的局限：传统的 Prompt（如“你现在是唐代诗人李白...”）只能改变模型的输出风格和分布，但它没有行动能力。纯 LLM 无法帮你“定闹钟”、“自动扫码签到”。

Agent 的本质：Agent 是拓宽了大模型边界的系统。它以大模型为“大脑”，赋予其自主调用工具的能力，使其能够与外部环境交互，从而完成复杂的现实任务。

如果只用prompt，有哪些任务无法完成？
AI 无法直接帮你设定闹铃
AI 无法直接帮你课堂签到
如何让AI更加自主的完成任务？ -- agent

2. Agent 与传统 Workflow 的区别

Workflow（工作流）：流程是定死的（例如：必然先查文献 → 再写摘要 → 再写正文），缺乏灵活性。
Agent（智能体）：流程是动态且自主的。大模型先给出总规划，在执行第一步后，如果发现结果不好或方向不对，大脑会自主修正下一步的计划，无需人类干预。

1.2 Agent 的三大核心能力

一个合格的 Agent 必须具备以下三大支柱能力，缺一不可：

1.2.1 能力一：规划（Planning / 感知与决策）

感知（多模态能力）：要求 Agent 既能看懂文本，也能处理图像、语音，甚至能统一理解不同软件工具的“工作语言”。
- 将多种模态“翻译成同一语言”（映射到同一空间）
- 将多种模态“拼接在一起”
决策（任务拆解）：AI根据既定模糊目标，自主拆解出子任务，判断执行顺序，并应对潜在变量。大模型能够将模糊的目标转化为可落地的结构化方案。
- 举例：“制定北京三日游计划” ——查交通 → 查酒店 → 排景点 → 算预算

1.2.2 能力二：行动（Action）

调用工具：Agent 可以调用 API 或运行程序。如调用 Python 环境执行代码（Cursor/Trae 的底层逻辑），或调用网络搜索接口。

大模型直接输出程序代码有问题，用大模型调用python
大模型可能不知道最新的论文，用大模型调用arxiv的API

多步任务与思维链（CoT, Chain of Thought）：
- 处理复杂任务时，Agent 需要拆解步骤。

Zero-shot CoT：只需在提示词加入“Let's think step by step”。
Few-shot CoT：在给模型的样例中，不仅给答案，还写出详细的中间推导过程。

问题：目前学界正在反思，大模型生成的 CoT 究竟是它“真的在思考”，还是它只是在生成“看起来像在思考”的文本？

1.2.3 能力三：记忆（Memory）

解决早期大模型“聊几句就忘了自己是谁”的健忘症。

为什么AI突然“忘了”自己是谁？ ——大模型对长文本任务表现往往不够好
忘记自己的身份信息
忘记以往的对话信息
对于多轮对话来说，不明确依赖对话历史的单纯的交互难以保持角色设定的一致性
以及对于上下文的理解

短期记忆（对话历史压缩）：将System Prompt（系统预设，如“你是福尔摩斯”）+Chat History（历史对话）打包送给模型。由于目前长文本技术的发展，大模型可轻松处理 200k tokens，短期记忆问题已基本解决。
- 工程实现中引入了对话记忆机制。我们可以选择将对话历史直接插入提示词中，
  但随着对话的积累，如何写入、管理记忆、构造提示词又引发了新的疑问。

长期记忆（Memory Bank / RAG）：面对超长的交互（如阅读成千上万行代码），单纯增加上下文窗口不够用。需要使用专门的机制，将历史对话总结成事件和用户画像，存入外部数据库，需要时通过 RAG（检索增强生成）提取相关记忆。

2.1 多智能体（Multi-Agent）的设计哲学

1. 什么是多智能体

Multiagent：通过赋予单个agent专门的职责设定，构建agents之间的通信，从而：

提供任务分解和专业化，分而治之，降低单个任务的复杂性
提供鲁棒性与容错性，例如代码审查
模拟复杂系统，模拟真实世界的社会、经济或组织动态

2. 为什么需要多智能体？

单一模型的局限（不够专精）：如果一个事物想越“通用”，它在垂直领域往往表现就越差（什么都懂一点 = 什么都不精通）。
分而治之：Multi-Agent 类似于 Agent 领域的CoT。通过赋予不同 Agent专门的职责设定，让它们分别做自己最擅长的事，然后相互通信，从而降低单个复杂任务的错误率。
对抗与协作机制：
- 例如写代码任务，不要让一个模型直接输出。可以设计两个 Agent：一个Programmer（程序员）负责写代码，一个Inspector（审查员）负责找 Bug 并出教程，两者自动循环纠错，直到输出完美结果。

动手来制作属于自己的agent吧！

2.2 Coze (扣子) 进阶开发

Coze是字节跳动推出的一站式 AI 应用开发平台，支持无代码 / 低代码方式，通过拖拽模块、集成插件与知识库等功能快速构建 AI 智能体或应用，并可发布至多平台或集成到业务系统，大幅降低 AI 开发门槛。

本节课手把手拆解了在 Coze 创建高质量 Agent 的底层参数调优与避坑逻辑：

1. Prompt 的结构化与优化

自动优化功能：不要自己干想！先写出简单需求（如：写一首周杰伦曲风的歌），直接点击左上角“自动优化提示词”，Coze 会自动帮你扩写成标准的【角色设定】+【技能列表】+【限制条件】的结构化 Prompt。

2. 模型选择与参数精调

选择合适的模型，尤其注意是否需要视觉能力；设置上下文轮数与最大回复长度
Top P（多样性控制）：
- 数值越大，模型生成的词汇越多样、越有创意；数值越小，模型会截断低概率词汇，生成越死板但精确。
- 写诗、写歌、做游戏，调大到0.9左右（偏创意）；写严肃论文、搜资料，调小到0.3~0.4（偏精确）。
重复句惩罚（Repetition Penalty）：
- 原理：大模型（尤其带深度思考的模型）极易陷入“车轱辘话”死循环。
- 实操建议：务必添加适量惩罚值（如 0.01~0.02），迫使模型输出新信息。
上下文轮数（Context Turns）：文字游戏类 Agent 必须调高，否则聊到后面模型会忘记开头的人设和规则。

3. MCP 插件使用

不要贪多：给大模型挂载的工具不是越多越好！插件过多会导致大模型不知道该掉用哪一个，最终报错或装死。
检查 API依耐性：很多第三方插件事实上需要你在参数里填入自己的Base URL或API Key，如果不填，调用必定失败（体现为模型拒绝输出结果或报超时错）。

2.3 Workflow（工作流）的搭建与逻辑

1. 什么是工作流？

将多个大模型、插件通过可视化连线（输入 → 输出）组合在一起。

2. Agent 与 Workflow 的核心区别

Agent：告诉它有哪些“技能（插件/模型）”，它自己动脑子决定先用哪个、后用哪个。
Workflow：把流程定死了，必须按你连的线一步步走。
何时用工作流？对于流程极度固定、步骤明确的任务（如：长文分段写作、固定格式打分），用 Workflow 更稳定，可避免 Agent 的“想太多”导致的幻觉。注意：Workflow 必须“发布”后才能在智能体中稳定供其自主调用。

2.4 底层架构对比

在处理复杂任务时，三种架构的能力对比：

架构模式	运行机制	核心能力特征	优缺点对比
Single LLM (单大模型)	原生对话，靠 Prompt 引导任务	无外部工具，无分工	最弱。无法融合不同专精的模型（如用模型A写词、模型B编代码）。
Workflow (工作流)	节点被连线“定死”，按顺序强行执行	No Planning (无规划能力)	优：流程绝对可控，无视模型脾气。缺：一旦中间一个节点挂了，后续全部完蛋，不能跳步。
Multi-Agent (多智能体)	多个专精 Agent 相互配合，共同完成任务	Has Planning (有自主规划能力)	优：灵活性极高。遇到某个 Agent 报错卡死，它能自主跳步/绕路，找别的办法完成任务。缺：不太听话，有时不按预期路线走。

延伸前沿概念：世界模型（World Model）与 Sora

世界模型（World Model）的定义：判断一个 AI 是否具有世界模型，核心在于它是否感知并掌握了人类世界的物理规律（Physics）。
大模型的痛点：传统的文本大模型不知道“苹果松手会掉在地上”，它只是概率预测。
Sora 的突破：在视频生成中展现了极强的空间能力、时间连续性和物理规律（流体碰撞、遮挡关系）。它不仅是在画图，而是在大脑中“建构了一个符合物理常识的三维世界”。

核心 AI 工具

本节课重点展示并解析了多个应用级与底层 AI 工具/模型，汇总如下：

工具/模型名称	类别	核心功能与特色	应用领域
Manus	商业级 Agent	现象级多功能聚合智能体。能根据模糊指令自主拆解任务、调研资料、编写代码并生成最终产物（如开题报告、小游戏、PPT）。注意：目前国内IP受限且价格昂贵。	全自动任务闭环：日常办公、简单游戏开发、资料汇总等自动化处理。
OpenManus	开源 Agent 框架	Manus 的开源简易复现版。支持本地部署，可接入第三方大模型 API（如 DeepSeek）来实现类似 Manus 的自主任务规划与执行。	本地化 Agent 开发与部署：适合开发者自定义、低成本体验 Agent 能力。
CLIP	多模态模型方案	OpenAI 提出的对比学习模型。将“图片”和“描述图片的文字”映射到同一个“概念空间”（翻译成同一语言），实现跨模态理解。	感知与识别：为 Agent 提供基础的图文匹配与多模态感知能力。
Flamingo	多模态模型方案	DeepMind 提出的模型。在冻结的语言模型中插入交叉注意力层，将多种模态“拼接”在一起，实现强大的少数样本学习和视觉理解。	视觉理解：赋予大模型（Agent大脑）“看”的能力。
ArXiv API	学术工具接口	学术预印本平台 ArXiv 提供的接口。Agent 可通过调用该 API，直接获取最新的未排版学术论文（如 LaTeX 源码），解析准确率远高于直接读取 PDF。	学术检索与工具调用：Agent 获取最新科研前沿数据的核心抓手。

工具/项目名称	工具类别	核心功能与特色	在本课/应用领域的场景
Coze (扣子)	智能体开发平台	字节跳动推出的一站式低代码 AI 开发平台。支持插件调用（MCP）、工作流编排和多平台一键发布。	搭建专属 Agent：如带人设的单人剧本杀、测试问卷、自动做歌/写文案机器人。
Suno / Suno AI	AI 音乐生成	强大的音乐生成模型，所作歌曲具极高“流行度”和“抓耳感”。可通过 API 接入 Coze 成为插件。	音乐创作：根据大模型写出的偏好、歌词，全自动谱曲并演唱。
Sora	AI 视频生成大模型	具备惊人的“世界模型”能力，能理解物体在三维空间的关系与物理碰撞规律，生成电影级运镜视频。	视频自动化生成：输入 Prompt 生成高逼真度物理规律和人物互动的短片。
AI Town / 生成式智能体	多智能体模拟环境	斯坦福/港大等研究的项目。在一个电子小镇中投放几百个拥有独立性格、记忆的 Agent，让其自主社交、生活。	社会学/经济学模拟：无需真人实验，通过 Multi-Agent 模拟人类社群行为。
Claude	大语言模型	被老师特别提及，在纯文本/非图形界面的 Prompt 编写和深度逻辑表现上，体验甚至优于 GPT。	强逻辑文本处理与代码辅助。