这篇论文来自Mila(蒙特利尔大学)和Snowflake的联合团队,一作 Xiaoyin Chen,通讯作者 Canwen Xu。论文发布于 2026 年 3 月,arXiv 编号 2603.18620。
研究聚焦的问题很直接:LLM 训练完成后,部署阶段就"定型"了。无论它在某个领域解了多少题、积累了多少经验,context 一清空,一切归零。这就像一个棋手每盘棋结束后都会失忆 —— 显然不合理。
围绕"测试时自我进化(test-time self-evolution)“这个方向,已有不少工作尝试让模型在部署后持续改进自身的 prompt 或 context。但这些方法有一个共同的"先天缺陷”:它们完全依赖模型自身的推理能力来分析反馈、提出改进,却从未专门训练过模型做这件事。
LSE 的核心思路是:既然"自我进化"本质上是一个推理任务,那就把它当作一项可学习的技能来训练。具体做法是将多步演化问题简化为单步 RL 目标,用"编辑前后性能差(improvement-based reward)"作为奖励信号;推理时再结合树搜索(tree-guided evolution)进行多轮迭代。
实验结果颇具冲击力:一个仅4B 参数的模型,经过 LSE 训练后,在 Text-to-SQL(BIRD)和通用问答(MMLU-Redux)两个任务上,超过了用 GPT-5 和 Claude Sonnet 4.5 驱动的自进化策略,也优于 GEPA、TextGrad 等 prompt 优化方法。而且,这个训练好的进化策略还能迁移到其他模型上使用,无需额外训练。
从技术视角看,这篇工作的亮点在于:1)将 self-evolution 形式化为一个 RL 问题并给出了简洁的训练范式;2)improvement-based reward 的设计有理论支撑且实验验证清晰;3)UCB 树搜索在 context 空间中的探索机制设计巧妙。论文写作规范,实验设计合理,消融分析到位,整体完成度较高,值得细读。
● ● ●
1 Introduction
训练结束就"定型"?LLM 缺少的不是能力,而是一种持续进化的机制。
论文开篇从人类智能的核心特征说起:适应性(adaptability)。
一个棋手通过复盘来提升棋力,一个程序员在日复一日的工作中逐渐熟悉代码库。这两个例子有一个共同点 ——经验在积累,行为在调整。
当前 LLM 的训练流程其实也有类似的动态过程。尤其是后训练阶段(post-training),通过 RL 在模型自己生成的数据上进行优化。但问题在于:
训练一旦结束,学习就停止了。部署后的 LLM 不管解了多少同领域的问题,都用同一套策略应对。context 一重置,之前积累的所有经验全部丢失。
这种"静态部署"与"动态适应"之间的鸿沟,催生了测试时自进化系统(test-time self-evolving systems)的研究方向。
自进化的两个维度
论文从两个维度梳理了自进化的研究版图:
维度一:如何更新策略?
●基于梯度(gradient-based):直接修改模型参数
●基于 prompt(prompt-based):保持参数冻结,只改写模型的 context
维度二:何时更新策略?
●Intra-episode(单集内进化):在同一个问题上反复尝试、逐步改进。比如 Reflexion 让模型反思失败并重试,SCoRe 通过 RL 训练自纠正能力,TTRL 在测试时直接做 RL。这类方法用额外计算换取单个问题上的准确率提升,但知识不跨问题迁移。
●Inter-episode(跨集进化):在完成一批问题后更新策略,并将改进应用到新问题上。这类方法提取的是可迁移的知识。
LSE 聚焦的是inter-episode、prompt-based的自进化:模型观察自己在一批问题上的表现,然后改写自己的 context,以期在下一批问题上做得更好。
现有方法的"先天不足"
在这个方向上,已有不少探索:
●自动 prompt 优化:DSPy、GEPA、TextGrad 等,用自然语言反馈迭代修改 prompt
●自指涉更新(self-referential updates):ExpeL 从成功/失败轨迹中提取教训,PromptBreeder 通过变异和交叉算子进化 prompt,ADAS 和 Darwin Godel Machine 更进一步,递归地重新设计自进化策略本身
●Agentic 记忆系统:Voyager 在 Minecraft 中积累可复用的技能库,MemGen 和 Mem0 维护跨 episode 的记忆存储
但这些方法都有一个共性问题:
它们完全依赖 LLM内在的推理能力来分析反馈、提出改进方案。模型从未被专门训练去做"自我改进"这件事。
LSE 的核心洞察
论文在这里提出了一个关键论点:
自进化(self-evolution)是一个与其他推理任务截然不同的推理挑战。它本质上具有 RL 问题的结构:模型需要判断当前 context 的哪些部分有帮助、哪些有害(credit assignment),预判修改后会如何影响下游行为(gradient estimation),并在"改良已有方案"和"尝试全新方向"之间做权衡(exploration vs. exploitation)。
为什么说自进化是一个独特的推理挑战?在常规推理任务中,模型面对的是"给定输入,产生正确输出"。而在自进化中,模型要做的是"分析一系列输入-输出-反馈,然后修改自己的指令以提升未来表现"。这需要元认知能力 —— 不是解题,而是"学会如何更好地解题"。一个 RL 优化器靠专门的算法来做信用分配、梯度估计和探索-利用平衡,而自进化模型必须仅凭自然语言推理来隐式完成这三件事。
基于这一洞察,作者提出了Learning to Self-Evolve(LSE):
LSE 是一个 RL 框架,显式训练 LLM 成为一个高效的自进化策略。训练时,将多步演化简化为单步:模型接收当前 context 和性能摘要,生成改进后的 context。每次编辑的奖励是下游性能的提升量(improvement),而非绝对分数。推理时,通过树引导的演化循环(tree-guided evolution loop)支持探索和回溯。
主要贡献
论文总结了三个贡献:
形式化了测试时跨集自进化,并通过 prompt-based 更新 + 树搜索将其落地实现(3.1, 3.2 节)
提出 LSE 框架,用 improvement-based reward 显式训练自进化策略(3.3 节)
实验验证:4B 模型经 LSE 训练后超越 GPT-5、Claude Sonnet 4.5 等更大模型和 GEPA、TextGrad 等优化方法,且可迁移引导其他模型(第 4 节)
Figure 1: Overview of Learning to Self-Evolve (LSE). Left: Tree-guided self-evolution at test time. Upper Confidence Bound (UCB) selection chooses a context from the evolution tree; the action model generates outputs for a new batch of problems; the self-evolving policy receives the performance summary and proposes a revised context. Right: LSE trains the self-evolving policy via RL with an improvement-based reward computed as the difference between post-edit and pre-edit performance.
本章小结:本章指出了当前 LLM 部署的核心缺陷 —— 训练后即静态,无法利用测试时积累的经验持续进化。现有的 test-time self-evolution 方法依赖模型内在的推理能力,从未专门训练这项技能。LSE 将自进化视为一个可学习的 RL 问题,通过单步 improvement-based reward 训练 + 树搜索推理,让一个 4B 小模型超越了 GPT-5 级别的 frontier model。这为"把自进化当作一项独立技能来训练"提供了有力证据。
● ● ●
3 Method
把"自我进化"拆解为三个问题:怎么形式化?怎么搜索?怎么训练?
这一章是论文的核心技术部分,分三个小节层层递进:
●3.1:定义问题 —— 什么是测试时跨集自进化?
●3.2:设计推理算法 —— 如何用树搜索实现 prompt-based 的自进化?
●3.3:训练自进化策略 —— 如何用 RL 让模型学会高效地自我改进?
3.1 Test-Time Inter-Episode Evolution(测试时跨集进化)
先把问题说清楚:什么是"进化"?"进化"什么?怎么衡量"进化"好不好?
基本设定
论文首先定义了一个清晰的系统架构。整个自进化系统由两个模型组成:
●Action Model(行动模型):负责解决实际任务。比如在 Text-to-SQL 场景中,它接收自然语言问题并生成 SQL 查询。Action Model 的参数始终冻结,不做任何修改。
●Self-Evolving Policy(自进化策略):负责改进 Action Model 的 context。它观察 Action Model 的表现,然后生成新的 context 来帮助 Action Model 做得更好。
为什么要分成两个模型?直觉上,让一个模型既解题又改进自己似乎更简洁。但分离有明确的好处:1)Action Model 可以是任意模型(包括 API-only 的闭源模型),Self-Evolving Policy 只需要是一个相对小的模型;2)训练目标更纯粹 —— Self-Evolving Policy 只需要学"如何改 context"这一件事;3)训练好的 Self-Evolving Policy 可以迁移到不同的 Action Model 上。
Context 的定义
Context是注入到 Action Model 的系统 prompt 中的一段文本。它可以包含:
●任务指令(task instructions)
●策略/技巧(tips and strategies)
●少样本示例(few-shot examples)
● 或任何对 Action Model 有帮助的信息
形式上,给定一个测试样本 ,Action Model 在 context 下生成输出 ,然后用评估函数 打分。
进化循环
自进化过程被组织为**多轮(multi-round)**的迭代循环。每一轮的流程如下:
评估:用当前 context 让 Action Model 在一批验证样本上运行,收集结果
反馈摘要:将评估结果汇总为一个性能摘要(performance summary),包含准确率等统计信息,以及成功/失败案例的样本
进化:Self-Evolving Policy 根据当前 context 和摘要 ,生成新的 context
重复:用 进入下一轮
用公式表示就是(对应论文 Eq. 1-3):
核心目标:找到一个 context *,*使得 Action Model 在测试集上的平均得分最大化(Eq. 4):
性能摘要的具体内容
论文在附录 B 给出了摘要的详细格式。它包含:
● 当前准确率和之前几轮的准确率变化趋势
● 随机采样的成功案例和失败案例(各若干个)
● 每个案例包括输入、Action Model 的输出、正确答案(如果可用)
为什么用摘要而不是直接给全部数据?两个原因:1)context 窗口有限,不可能塞下所有评估结果;2)摘要本身就是一种信息压缩,强迫系统关注最重要的模式而非陷入细节。
3.2 Prompt-Based Evolution with Tree Search(基于 Prompt 的树搜索进化)
如果每次只沿一条路走,很容易陷入局部最优。树搜索让进化有了"回溯"和"探索"的能力。
朴素方案的问题
最简单的自进化方式是贪心链式进化(greedy chain evolution):每轮只保留一个 context,逐步改进。但这有两个严重问题:
不可逆性:一次坏的修改会覆盖掉之前的好 context,而且后续很难恢复
局部最优:贪心策略容易陷入 context 空间中的局部最优,无法跳出来探索其他方向
树结构的引入
为了解决这两个问题,LSE 将进化过程组织为一棵树(tree):
●根节点:初始 context (通常是一个简单的任务描述)
●每条边:代表一次 context 修改操作
●每个节点:代表一个 context 版本及其评估结果
每一轮进化不再是线性链式的,而是:
从树中选择一个节点作为出发点
从这个节点生成一个或多个子节点(新 context)
评估新 context 的表现
将结果挂回树上
这样就自然获得了两个关键能力:
●回溯(backtracking):如果当前方向走不通,可以回到之前的节点重新探索
●分支探索(branching):同一个节点可以生成多个不同的子节点,探索不同的改进方向
UCB 节点选择策略
关键问题来了:每一轮应该选择哪个节点来扩展?
这其实是一个经典的探索-利用权衡(exploration-exploitation trade-off)问题。论文借鉴了UCB(Upper Confidence Bound)算法来做节点选择。
每个节点 的 UCB 分数计算如下(对应论文 Eq. 5):
其中:
● :节点 的平均价值,衡量"利用"(exploitation)—— 从这个节点出发,历史上产生了多好的后代?
● :探索奖励(exploration bonus)—— 是总访问次数, 是节点 的访问次数。访问越少,探索奖励越大
● :探索系数,控制探索与利用的权衡
价值函数的设计
节点的平均价值怎么算?论文设计了一个混合公式(Eq. 6):
● 第一项 :节点自身的评估分数(当前 context 的直接表现)
● 第二项 :子节点中的最佳价值(后代的潜力)
● :平衡系数
为什么要混合自身分数和后代分数?纯粹看自身分数()会导致总是从当前最好的节点出发,这又退化成了贪心。纯粹看后代潜力()则忽略了当前节点本身的质量。混合两者既鼓励从高分节点出发(因为高分 context 更可能产出更好的后代),又不完全忽略那些自身分数不高但后代表现出色的"潜力股"。
完整的树搜索进化算法
把上面的组件组合起来,每一轮的完整流程是(对应论文 Algorithm 1):
Algorithm 1:Prompt-based Evolution with Tree Search
输入:初始 context 、Self-Evolving Policy 、Action Model 、进化轮数
初始化树 ,根节点为
评估 在验证集上的表现,得到 和摘要
For:
a. 用 UCB 公式选择一个节点
b. 构造摘要
c. 调用 Self-Evolving Policy 生成新 context:
d. 用 Action Model 在验证集上评估
e. 将 作为 的子节点挂到树上
f. 反向传播更新路径上所有节点的价值
- 返回树中得分最高的 context
树搜索与 MCTS 有什么关系?形式上很相似 —— 都用 UCB 做节点选择,都有反向传播更新价值。但区别在于:传统 MCTS 在一个已知的动作空间上搜索(如围棋的落子位置),而 LSE 的"动作"是用自然语言改写 context,动作空间是无限且连续的。此外,传统 MCTS 通常用 rollout 来估计价值,而 LSE 直接用真实评估分数。所以 LSE 的树搜索更像是一个在 context 空间中做 beam search + 回溯的进化算法。
3.3 Learning to Self-Evolve(学习自进化)
前面定义了"做什么"和"怎么搜索",这一节解决最核心的问题:怎么让**成为一个好的自进化策略?
核心挑战:多步 vs 单步
自进化本质上是一个序贯决策(sequential decision making)问题:每一步的 context 修改都会影响后续所有步骤。理论上应该用多步 RL(如 PPO 在 MDP 上的标准做法)来优化。
但多步 RL 在这里面临严重的实际困难:
信用分配困难:最终的 context 好不好,是多轮修改共同作用的结果。哪一步修改贡献了多少?极难判断。
高方差:每一步都需要完整评估(让 Action Model 在整个验证集上跑一遍),评估本身就有随机性,多步累积后方差爆炸。
计算代价高:每一步训练都需要完整的"生成新 context → 评估 → 计算奖励"循环,T 步进化意味着 T 倍的开销。
关键简化:单步 RL
论文提出了一个优雅的简化:将多步进化问题分解为多个独立的单步优化问题。
具体来说,不去优化整个 T 步序列的累计奖励,而是训练 让每一步修改都尽可能好。
形式上,对于每一步, 的输入是 (当前 context 和性能摘要),输出是新 context 。优化目标是最大化(Eq. 7):
其中 是单步奖励。
为什么单步就够了?直觉上,如果每一步都在变好,那整个序列就在变好。虽然这不是严格最优的(因为忽略了长期规划),但在实际中足够好 —— 因为树搜索机制已经提供了全局探索的能力。单步 RL 负责"每一步修改都有质量",树搜索负责"全局路径选择",两者各司其职。
奖励设计:Improvement-based Reward
奖励函数的设计是 LSE 的另一个关键创新。
最直觉的做法是用新 context 的绝对分数作为奖励:。但论文指出这有严重问题:
绝对分数的问题:如果当前 context 已经很好(比如准确率 90%),那新 context 的分数也很可能在 90% 左右。对于 RL 来说,所有动作的奖励都差不多,梯度信号极弱 —— 模型学不到什么有用的东西。本质上,绝对分数包含了太多与当前"动作"(context 修改)无关的方差。
因此,LSE 采用improvement-based reward(基于提升量的奖励)(Eq. 8):
即新 context 的分数减去旧 context 的分数。这个设计简单却深刻:
● 只关注边际改进,过滤掉了与当前动作无关的"基线"方差
● 正奖励意味着改进成功,负奖励意味着退步 —— 信号非常清晰
● 从统计角度看, 本质上充当了一个控制变量(control variate),降低了梯度估计的方差
与 GRPO 的 baseline 设计对比:GRPO 用同一个 prompt 下多个采样的均值作为 baseline。LSE 的 improvement-based reward 则用前一步的分数作为 baseline。后者更自然地契合了"进化"的语义 —— 不是和其他候选比,而是和之前的自己比。
策略梯度更新
有了奖励函数,接下来就是标准的策略梯度优化。论文采用了类似 GRPO 的框架。
对于每个训练样本 ,采样 个新 context ,并分别评估。
优势函数(advantage)的计算如下(Eq. 9):
即对 K 个样本的奖励做归一化。这样做有两个好处:
● 零均值归一化让好的修改获得正优势,差的修改获得负优势
● 除以标准差让不同难度的样本有可比的梯度大小
最终的策略梯度损失为(Eq. 10):
其中:
● 是重要性采样比率
● 是 PPO 的 clip 范围
● 是与参考策略 的 KL 散度正则项
为什么用 GRPO 式的框架而不是标准 PPO?PPO 需要一个独立的 value network 来估计基线,而 GRPO 直接用采样均值作为基线,省去了 value network 的训练开销。在 LSE 的场景中,每次评估本身就很贵(需要在验证集上跑 Action Model),所以减少额外网络的开销是务实的选择。
训练数据的生成
训练 LSE 需要大量的 四元组。这些数据如何获取?
论文采用的是在线 RL的方式:
从当前策略 出发,运行几轮树搜索进化,收集进化过程中产生的所有 对
对每个 ,用当前策略采样 K 个新 context
评估每个新 context 的得分,计算 improvement reward
用这些数据做一步策略梯度更新
重复
训练流程的巧妙之处:注意到训练数据的 并非随机的 —— 它们来自实际的进化过程。这意味着训练分布与测试分布是匹配的。模型不是在随机 context 上学改进,而是在自己实际会遇到的 context上学改进。这种"on-policy"特性对 RL 训练至关重要。
本章小结:第 3 章分三步展开了 LSE 的完整技术方案。3.1 形式化了测试时跨集自进化问题:Self-Evolving Policy 观察 Action Model 的表现,迭代改写 context 以提升性能。3.2 引入树搜索来组织进化过程,用 UCB 算法平衡探索与利用,避免贪心策略的局部最优和不可逆性。3.3 是核心创新 —— 将多步进化简化为单步 RL 训练,用 improvement-based reward(前后分数差)作为奖励信号,配合 GRPO 式的策略梯度更新。这一设计既降低了信用分配的难度和梯度方差,又保持了 on-policy 的训练分布匹配。整套方案在概念上简洁、在实现上务实。
4 Experiments
4B 小模型如何吊打 GPT-5?数据说话。
4.1 Experimental Setup(实验设置)
两个任务、多组 baseline、严谨的评估协议。
评估任务
论文选择了两个差异较大的任务来验证 LSE 的通用性:
任务一:BIRD(Text-to-SQL)
● 给定自然语言问题和数据库 schema,生成 SQL 查询
● 评估指标:执行准确率(execution accuracy),即生成的 SQL 执行结果是否与 ground truth 一致
● 这是一个结构化生成任务,对 context 中的指令和策略非常敏感
任务二:MMLU-Redux(多选题问答)
● 涵盖多个学科的多选题
● 评估指标:答案准确率
● 这是一个知识推理任务,测试 LSE 在不同类型问题上的泛化能力
为什么选这两个任务?它们代表了两种很不同的场景:BIRD 是结构化输出(生成代码),MMLU-Redux 是非结构化推理(选择题)。如果 LSE 在两个任务上都有效,就说明它不是针对某种特定任务的 trick,而是一种通用的自进化能力。
数据划分
论文对数据集做了精心的划分(详见 Table 4):
| 数据集 | 训练 RL 用的验证集 | 最终报告结果的测试集 |
|---|---|---|
| BIRD | train-validation: 346 样本 | held-out validation: 488 样本 |
| MMLU-Redux | validation: 500 样本(采样) | test: 3000 样本 |
Baseline 方法
论文对比了多类方法,覆盖面很广:
直接推理(无进化):
●Zero-shot:只给任务描述,不做任何进化
●Few-shot:在 context 中加入少量人工挑选的示例
Prompt 优化方法:
●GEPA:基于进化算法的 prompt 优化
●TextGrad:基于文本"梯度"的 prompt 优化
Intra-episode 方法:
●Best-of-N:对每个问题生成 N 个答案取最好
●Self-Correction(SC):让模型反思并修正自己的输出
不同 Self-Evolving Policy 的对比:
● 使用GPT-5、Claude Sonnet 4.5、Qwen2.5-3B-Instruct(未训练)作为 Self-Evolving Policy
● 使用LSE 训练后的 Qwen2.5-3B-Instruct作为 Self-Evolving Policy
实验设计的亮点:通过固定 Action Model、只变换 Self-Evolving Policy,论文能精确隔离"自进化能力"这一变量。GPT-5 和 Claude Sonnet 4.5 代表了最强的通用推理能力,如果一个经过 LSE 训练的 4B 小模型能超过它们,就有力说明了"专门训练自进化"比"通用推理能力"更重要。
Action Model 选择
● BIRD 任务:使用Qwen2.5-Coder-7B-Instruct作为 Action Model
● MMLU-Redux 任务:使用Qwen2.5-7B-Instruct作为 Action Model
进化轮数统一为10 轮。
4.2 Main Results(主要结果)
4B 打败 GPT-5,不是标题党,是实验数据。
BIRD(Text-to-SQL)结果
论文 Table 1 给出了完整的对比结果。核心发现:
结论一:LSE 训练的 4B 模型超越了所有 baseline,包括 GPT-5 和 Claude Sonnet 4.5。
● Zero-shot baseline:约 53% 准确率
● GPT-5 作为 Self-Evolving Policy:约 61% 准确率
● Claude Sonnet 4.5 作为 Self-Evolving Policy:约 59% 准确率
● GEPA(使用 GPT-5):约 58% 准确率
●LSE(4B 模型):约 64% 准确率—— 最高
几个值得注意的细节:
●未训练的 Qwen2.5-3B-Instruct作为 Self-Evolving Policy 效果很差,说明自进化能力不是小模型天生具备的
●GEPA 和 TextGrad虽然使用了 GPT-5 作为驱动,但表现仍不如 LSE,说明"方法论"比"模型大小"更重要
● LSE 的优势在多轮进化后更加明显 —— 第 1-2 轮大家差距不大,但 LSE 在后续轮次持续改进,而其他方法趋于饱和
MMLU-Redux(多选题)结果
论文 Table 2 展示了 MMLU-Redux 的结果。趋势与 BIRD 一致:
结论二:在知识推理任务上,LSE 同样大幅领先。
● Zero-shot baseline:约 68% 准确率
● GPT-5 作为 Self-Evolving Policy:约 72% 准确率
●LSE(4B 模型):约 75% 准确率—— 同样是最高
MMLU-Redux 上进化带来的提升幅度为什么没 BIRD 大?BIRD 是一个 context 敏感度很高的任务 —— SQL 生成严重依赖 prompt 中的指令和示例。而 MMLU-Redux 更依赖模型的内在知识,context 改进的边际收益相对较小。但即便如此,LSE 仍然带来了显著提升,说明即使在知识密集型任务上,好的 context 也能引导模型更有效地运用已有知识。
与 Intra-episode 方法的组合
论文还验证了 LSE 与 intra-episode 方法的叠加效果:
结论三:LSE + Best-of-N 或 LSE + Self-Correction 的组合效果优于单独使用任何一种方法。
这验证了 3.1 节提出的"正交性"假设 —— inter-episode 的 context 优化和 intra-episode 的单次推理优化可以互补,不存在此消彼长的关系。
迁移性实验
论文 Table 3 展示了一个令人惊喜的结果 ——LSE 训练的 Self-Evolving Policy 可以迁移到其他 Action Model:
结论四:用 Qwen2.5-Coder-7B 作为 Action Model 训练的 LSE 策略,可以直接迁移到其他模型上使用。
● 在 BIRD 上,LSE 策略成功引导了与训练时不同的模型(包括不同规模的模型),都取得了改进
● 这说明 LSE 学到的不是特定于某个模型的 trick,而是一种通用的自进化策略—— 比如"如何分析失败案例""如何提炼有效的指令"等
迁移性为什么重要?在实际应用中,Action Model 可能是一个昂贵的 API(如 GPT-5),不可能在上面做 RL 训练。但如果可以在一个小模型上训练 Self-Evolving Policy,然后迁移到大模型上使用,这就大大降低了 LSE 的部署门槛。
4.3 Analysis(消融分析)
每个设计选择都不是凭空拍脑袋的。消融实验一一验证。
论文做了非常全面的消融分析,涵盖了四个关键设计决策。
消融一:RL 训练的效果
对比了三种 Self-Evolving Policy:
●未训练的 Qwen2.5-3B-Instruct(零基线)
●SFT 训练:用 GPT-5 的成功进化轨迹做监督微调
●LSE(RL 训练)
发现:RL 训练 > SFT 训练 >> 未训练。SFT 比不训练好很多,说明自进化确实是一种可学习的技能。但 RL 比 SFT 还好,说明探索性学习(RL)比模仿学习(SFT)更适合自进化任务 —— 因为 SFT 只能模仿成功案例,而 RL 能从失败中学习。
消融二:Improvement-based Reward vs Absolute Reward
对比了两种奖励设计:
●Absolute reward:
●Improvement reward:
发现:Improvement reward 显著优于 absolute reward。这验证了 3.3 节的理论分析 —— absolute reward 的梯度信号太弱(因为大部分方差来自与当前动作无关的"基线"),而 improvement reward 通过减去前一步分数有效降低了方差,让模型能更清晰地学到"什么样的修改是好的"。
消融三:树搜索 vs 链式进化
对比了两种进化结构:
●Chain(链式):每轮只有一条路径,贪心推进
●Tree(树式):UCB 选择节点,支持回溯和分支
发现:树搜索在多轮进化后显著优于链式进化。前 2-3 轮两者差距不大(因为探索空间还小),但从第 4 轮开始,链式进化趋于饱和甚至退化,而树搜索持续改进。这说明回溯和探索能力在中后期至关重要 —— 链式进化一旦走入死胡同就无法回头,而树搜索可以回到之前的高分节点重新出发。
消融四:UCB 参数的影响
探索系数 控制着探索与利用的平衡。论文测试了不同的 值:
● (纯利用,总是选最高分节点)
● (中等探索)
● (较强探索)
发现:适度的探索( 附近)效果最好。 退化为贪心,容易陷入局部最优。 太大则过度探索,浪费预算在低分节点上。这与 bandit 问题的经典结论一致。
每轮进化的准确率变化
Figure 3 展示了不同方法在 10 轮进化中的准确率变化曲线:
●LSE:持续稳定上升,到第 10 轮仍有改进空间
●GPT-5 / Claude Sonnet 4.5:初期上升较快,但到第 4-5 轮后基本饱和
●未训练的小模型:几乎没有提升,甚至可能退化
关键洞察:LSE 的优势不在于单轮改进幅度更大,而在于持续改进的能力。大模型(GPT-5等)凭借强大的推理能力可以在前几轮做出不错的修改,但很快陷入瓶颈。LSE 训练的小模型虽然单轮改进可能不如大模型,但它能避免无效修改和退化,因此能在更多轮次中持续积累改进。
MMLU-Redux 上的补充消融
论文在 MMLU-Redux 上也做了类似的消融分析,结论与 BIRD 一致:
● RL 训练 > SFT > 无训练
● Improvement reward > Absolute reward
● 树搜索 > 链式进化
这说明 LSE 的设计选择在不同任务类型上都是有效的,具有良好的通用性。
本章小结:实验部分全面验证了 LSE 的有效性。主要发现包括:1)LSE 训练的 4B 模型在 BIRD 和 MMLU-Redux 两个任务上均超越了 GPT-5 和 Claude Sonnet 4.5 驱动的自进化策略;2)LSE 与 intra-episode 方法(Best-of-N、Self-Correction)正交互补;3)训练好的 Self-Evolving Policy 可迁移到其他 Action Model;4)消融分析验证了每个设计决策(RL 训练、improvement reward、树搜索、UCB 探索)的必要性和有效性。尤其值得注意的是,LSE 的核心优势不是单轮改进幅度,而是"持续改进而不退化"的能力。
5 Conclusion
把"自我进化"变成一项可训练的技能,这可能是通往真正自适应 AI 的一小步。
核心贡献回顾
LSE 提出了一个明确的主张:
自我进化不应该被视为 LLM 的"天赋",而应该被视为一项需要专门训练的技能。通过将测试时跨集自进化形式化为 RL 问题,LSE 证明了一个仅 4B 参数的小模型,经过专门训练后,可以成为比 GPT-5 和 Claude Sonnet 4.5 更优秀的自进化策略。
这个结论的深层含义在于:
●能力分离:"解题能力"和"自我改进能力"是两种不同的能力。一个模型可能解题很强但自我改进很差(如未训练的小模型),也可能自我改进很强但解题能力一般(如 LSE 训练后的小模型)
●小模型的新可能:不需要用最大的模型来做所有事。可以用小模型训练专门的"元认知"技能,然后引导更大的模型
●迁移性的价值:训练好的自进化策略可以跨模型复用,降低了实际部署的门槛
局限性与未来方向
论文虽然没有专门设立 Limitations 章节,但从技术方案中可以识别出几个潜在的局限:
可识别的局限性:
依赖可验证的评估指标:LSE 需要清晰的评分函数来计算奖励。对于开放式生成任务(如创意写作、对话),如何定义奖励是一个挑战
评估计算开销大:每轮进化都需要在验证集上完整跑一遍 Action Model,10 轮进化意味着 10 倍的推理开销
任务范围还有限:目前只验证了 Text-to-SQL 和多选题,对更复杂的任务(如多轮对话、长文本生成)的效果有待验证
单步 RL 的理论边界未明确:单步简化在实验中效果很好,但理论上是否存在它无法解决的场景(如需要长期规划的进化)还不清楚
潜在的未来方向包括:
●扩展到更多任务类型:代码生成、数学推理、agentic 任务等
●结合梯度更新:将 prompt-based 和 gradient-based 的自进化结合,同时改 context 和参数
●更高效的探索策略:超越 UCB 的更智能的树搜索算法
●元学习角度:训练一个能跨任务迁移的通用自进化策略
● ● ●
写在最后
LSE 这篇工作给我的最大感受是:它把一个听起来很宏大的愿景(“让 AI 学会自我进化”)落地成了一个工程上可操作的方案。
技术上,每一步都不算革命性创新 —— 单步 RL、UCB 树搜索、improvement-based reward,都是现有工具的巧妙组合。但将"自进化"视为一个可训练的 RL 问题这个 insight 本身非常有价值。它告诉我们:不要指望一个通用模型自然地拥有所有元认知能力,这些能力本身也需要专门的训练信号。
从更宏观的角度看,LSE 可能代表了一个方向:不是训练一个无所不能的巨型模型,而是训练一组各司其职的专业化小模型—— 一个负责解题,一个负责优化,可能还有一个负责评估。这种"分工协作"的范式,可能比纯粹的 scaling up 更务实、更高效。
当然,现在谈"真正的自我进化"还早 —— LSE 仍然需要明确的评估指标、需要人类定义的任务边界。但作为"让 AI 在部署后持续变强"的第一步,这篇工作走得很稳当。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~