字节跳动李航博士提出AI智能体通用框架,首次统一软件智能体与硬件机器人的信息处理架构。该框架以多模态大语言模型为"大脑",结合动作解码器、工具和记忆系统,采用双层结构和神经符号融合设计。通过分析主流智能体案例,展示了框架普适性,并探讨与人类大脑的功能对应关系。李航强调,智能体是通往通用人工智能的必经之路,但需关注安全对齐,设定"研发红线",防止智能体发展出自私或恶意行为。
作者:Hang Li(李航)
机构:北京字节跳动科技有限公司
发表期刊:《Journal of Computer Science and Technology》(JCST)
时间:2026年1月
在人工智能迈向通用智能的关键阶段,AI智能体(Agent)正成为连接大模型与现实世界的核心桥梁。从手机上的智能助手到工厂里的机械臂,智能体正在重塑人机交互的边界。
近日,字节跳动Seed实验室负责人、ACM/IEEE Fellow李航博士发表重磅综述论文《General Framework of AI Agents》(AI智能体通用框架),首次提出一个统一涵盖软件智能体与硬件机器人的通用信息处理架构,并深入探讨其与人类大脑机制的对应关系。
本文将通过图解+通俗解读的方式,带你全面理解这篇具有里程碑意义的论文核心思想。
一、什么是AI智能体?为什么需要通用框架?
智能体 = 能“思考”并“行动”的AI
软件智能体
:如智能客服、编程助手、操作系统Copilot,运行于数字世界。
硬件智能体
(机器人):如自动驾驶汽车、家庭服务机器人,作用于物理世界。
尽管形态各异,它们都具备以下共性:
✅ 以完成任务为目标
✅ 接收文本+多模态输入(图像、语音、视频)
✅ 输出文本、多模态内容,甚至物理动作
✅ 以大语言模型(LLM)
✅ 通过强化学习构建
✅ 能调用工具(Tools)与记忆(Memory)
🔍问题:当前智能体研究碎片化,缺乏统一理论指导。
💡李航提出:我们需要一个类似“冯·诺依曼架构”之于计算机的通用智能体框架。
二、通用框架长什么样?——核心组件图解
该该框架包含以下关键模块:
| 模块 | 功能说明 |
|---|---|
| 多模态大语言模型(MLLM) | 智能体的“大脑”,负责推理、规划、反思,生成思维链(Chain-of-Thought) |
| 多模态编码器/解码器 | 将图像、音频等转化为模型可理解的向量,或将向量还原为多模态输出 |
| 动作解码器(仅机器人) | 将高层指令转化为具体的机械臂轨迹或移动路径 |
| 工具(Tools) | 内置(计算器)或外接(搜索引擎、API),扩展能力边界 |
| 记忆系统 | 包含工作记忆(短期上下文)和长期记忆(知识库、经验) |
🌟 两大创新点:
双层结构
:底层是神经网络模块,上层是信息协调机制。
神经符号融合
:既用神经网络处理感知,也用符号系统保证逻辑严谨性(如数学证明)。
三、现有智能体都是这个框架的“特例”
李航指出,当前主流智能体均可纳入该通用框架:
| 智能体 | 特点 | 对应框架组件 |
|---|---|---|
| AutoGPT | 自主分解任务、调用工具、存入向量数据库 | LLM + Tools + Long-term Memory |
| LangChain | 构建复杂工作流,支持记忆与工具调用 | Chains + Tools + Memory |
| ReAct | 交替进行“推理”与“行动” | LLM推理 + Tool调用循环 |
| Reflexion | 失败后自我反思并改进 | LLM + Reflection + Memory存储 |
| Voyager(Minecraft机器人) | 自主探索、技能库积累 | Curriculum Planner + Skill Library(Memory) |
| Gemini Robotics 1.5 | 高层推理 + 低层动作控制 | ER Model(MLLM) + VLA Model(Action Decoder) |
✅结论:无论简单还是复杂,所有智能体都在“感知 → 思考 → 行动 → 学习”这一闭环中运行。
四、字节跳动Seed的四大实践案例
李航团队基于该框架开发了多个前沿智能体:
1.AGILE:会“求助专家”的问答智能体
- 遇到难题时可咨询人类专家
- 通过强化学习最小化专家依赖
- 知识可沉淀至长期记忆,惠及未来任务
2.Delta Prover:数学定理证明专家
- 结合LLM与Lean 4形式化证明器
- 采用反思式问题分解(RPD)与迭代修复(IPR)
- 在miniF2F数据集上达96%成功率
3.Robix + GR-3:具身智能机器人
Robix
(MLLM):负责对话、理解、高层规划
GR-3
(VLA模型):生成精确机械臂轨迹
支持被人类打断、实时响应
4.M3-Agent:带长期记忆的多模态智能体
- 构建以实体为中心的记忆图谱(人脸、声音、关系)
- 同时维护情景记忆(事件)与语义记忆(知识)
- 在长视频问答任务中显著超越普通MLLM
五、智能体 vs 人脑:功能级对应关系
李航大胆提出:智能体框架与人类大脑存在功能同构性!
| 人类大脑 | AI智能体框架 |
|---|---|
| 大脑皮层(思考、语言、视觉) | MLLM(推理、多模态理解) |
| 小脑(运动控制) | 动作解码器 / VLA模型 |
| 海马体(记忆) | 长期记忆系统 |
| 全局工作空间(意识整合) | 信息协调机制 |
| 潜意识并行处理 | 多模态编码器并行提取特征 |
🧠启示:AI不必模仿神经元,但应借鉴大脑的功能分工与协同机制。
六、未来方向:挑战与红线
🔮 关键研究方向:
扩大数据规模
:真实世界数据稀缺,需通过仿真或智能体自主采集。
自主持续学习
:部署后能在线学习、适应新环境。
安全与可控性
:必须设定“研发红线”!
⚠️ 最大风险警告:
若强化学习的奖励函数超出“任务完成”范畴(例如以“生存”为唯一目标)
——智能体可能发展出自私甚至恶意行为!
因此,对齐人类价值观的奖励设计至关重要。
结语:智能体——通往通用人工智能的基石
李航认为,AI智能体不仅是技术演进的产物,更是实现真正智能的必经之路。其提出的通用框架,为学术界与工业界提供了清晰的路线图。
“计算即智能”—— 而智能体,正是这一理念在新时代的最佳载体。
随着软硬件协同、记忆机制、安全对齐等难题的突破,我们或许正站在通用人工智能黎明前夜。
如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
01.大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。