摘要
今天一起看下字节新出论文《Scaling Long-Horizon LLM Agent via Context-Folding》。
在构建长程(Long-Horizon)Agent 时,上下文窗口的线性增长与注意力的二次方开销是制约模型推理能力与运行效率的核心瓶颈。不同于传统的 RAG 或基于摘要的被动压缩,字节提出的Context-Folding 赋予了 Agent主动管理记忆的能力:通过branch和return原语,Agent 可以动态开辟分支处理子任务,并在任务完成后将过程“折叠”,仅保留核心摘要返回主线程。本文将从架构设计、FoldGRPO 训练算法及工程实现细节三个维度尝试解构这一方案。
1. 引言:Agent 的记忆痛点
随着 Agent 能够处理的任务越来越复杂(如 SWE-Bench 上的代码工程或 Deep Research),其交互轨迹(Trajectory)呈指数级增长。传统的 ReAct 架构采用“线性累积”策略,将所有 Reasoning、Tool Call 和 Observation 堆叠在 Context 中。
这种做法面临两个物理铁律的挑战:
- Lost-in-the-Middle:即便 Contex