2026开年新风向：上下文即Teacher，三文详解Self-Distillation新范式-平芜编程栈

2026 开年三文连发，大模型如何靠上下文实现自我进化？

最近几天，MIT、ETH Zurich 和 UCLA 等团队，几乎在同一时间提交了关于 Self-Distillation 的重磅论文。

虽然它们分别探讨的是持续学习、强化学习和复杂推理，但在技术内核上却高度一致。

这三项工作打破了传统知识蒸馏必须依赖更强外部 Teacher（如 GPT-4）的定式，共同指向了一种 On-Policy Self-Distillation 的新范式：

不再寻找外部导师，而是利用推理时的额外上下文，构建一个比 Base Model 更强的“自我”，以此作为 Teacher 指导训练。

这一范式有效地将推理时的计算转化为了训练时的信号。本文将深度拆解这三篇论文，探讨这一技术路线如何重塑大模型的训练效率。

SDFT

论文标题：

Self-Distillation Enables Continual Learning

论文链接：

https://arxiv.org/pdf/2601.19897

项目链接：

https://github.com/idanshen/Self-Distillation

在持续学习中，SFT 面临严重的灾难性遗忘。传统的解法是维护一个 Replay Buffer 进行混合训练，但这仅仅是数据的回放，而非知识的内化。

SDFT 的核心洞察在于，利用大模型强大的 In-Context Learning 能力作为 Teacher。

核心机制

SDFT 构建了一个 Demonstration-Conditioned Teacher。对于输入，模型检索旧任务的示例作为 Context，构建 Teacher 分布。

而 Student 模型则在没有任何演示的情况下，通过 KL 散度去拟合 Teacher 的输出分布。

这是一个典型的 On-Policy 过程，Teacher 指导 Student 如何将“写在 Prompt 里的短期记忆（演示）”内化为“写在参数里的长期记忆（权重）”。

为了更清晰地展示这一过程，原论文详细描绘了从检索 Demonstrations 到 Student Update 的完整数据流：

〓 SDFT 详细流程图

此外，SDFT 的具体实现逻辑非常简洁，原论文在 Algorithm 1 中给出了明确描述，清晰展示了利用 KL 散度进行蒸馏的步骤：

〓 SDFT 算法伪代码，详述了构建 Conditioned Teacher 及计算 Loss 的过程。

实验结论

在 ScienceQA, Hellaswag, MMLU 等数据集的混合评估中，SDFT 在保留旧知识方面的表现显著优于单纯的 SFT 和 DET 方法。

〓 SDFT 在 New Task 和 Previous Tasks 上均取得了最佳的平均表现，显著优于 SFT。

更为关键的是，SDFT 在顺序学习（Sequential Learning）场景下展现了极强的稳定性。

原论文记录了模型在依次学习多个技能时的性能变化：

〓技能学习动态曲线：随着学习步骤的推进，SDFT 在旧任务上的性能几乎保持水平，未出现 SFT 常见的断崖式下跌，完美印证了其克服灾难性遗忘的能力。

SDPO

论文标题：

Reinforcement Learning via Self-Distillation

论文链接：

https://arxiv.org/pdf/2601.20802

项目链接：

https://github.com/lasgroup/SDPO

在代码生成或科学推理的强化学习场景中，核心难题是 Credit Assignment。

传统的 RLVR 或 GRPO 通常只能获得一个标量的 Reward（代码跑通=1，报错=0），模型难以知晓具体是哪个 Token 导致了错误。

SDPO 提出利用 Rich Feedback（如编译器报错）构建 Self-Teacher，将稀疏的标量信号转化为密集的 Token 级监督。

核心机制

当模型生成的代码触发反馈（如 Runtime Error）时，SDPO 将重新输入给模型。模型利用自身的反思能力和反馈信息，能够识别错误并生成更优的 Token 分布。

此时，Teacher 被定义为 Conditioned on Feedback 的分布。Student则通过蒸馏学习这个“事后诸葛亮”的自己。

这一机制的核心在于将传统的标量奖励设定（RLVR）升级为富反馈设定（RLRF）。原论文直观对比了这两种模式的区别：

〓 RLVR 与 RLRF 设定对比，SDPO 利用 Feedback 构建更强的 Self-Teacher 信号

为了直观理解这一过程，我们可以看一个具体的代码生成案例：

〓自修正案例展示

模型最初生成的代码导致了 IndexError，将该报错作为 Feedback 输入后，Self-Teacher 成功生成了修正后的代码。

SDPO 正是通过蒸馏这种自我修正的能力来提升模型。

其具体的训练过程如下伪代码所示，明确展示了如何利用 Feedback 构造 Teacher 分布：

〓 SDPO 核心算法，展示了 Feedback 在 Teacher 构建中的关键作用。

实验结论

在基于 Qwen3-8B 的实验中，SDPO 不仅在采样效率上优于 GRPO，在最终的 Pass Rate 上也取得了实质性突破。

〓 SDPO 与 GRPO 训练曲线对比：SDPO 曲线在相同采样次数下达到了更高的 Pass Rate

更详细的 Benchmark 数据进一步证实了这一点：

〓在多个权威榜单上，SDPO 均取得了比 GRPO 更高的准确率，证明了密集反馈信号的优越性。

OPSD

论文标题：

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

论文链接：

https://arxiv.org/pdf/2601.18734

在数学推理任务中，SFT 存在训练与推理分布偏移的问题。OPSD (On-Policy Self-Distillation) 关注如何利用训练数据中隐含的特权信息——即 Ground Truth 答案。

核心机制

OPSD 的逻辑是 Teacher 看着答案生成推理步骤，Student 看着问题学习推理步骤。

Teacher Policy 定义为，它能利用答案作为导航，生成高质量的 CoT。Student Policy则在自己的采样轨迹（Rollouts）上，去拟合 Teacher 的分布。

其核心优化目标（Per-token Divergence）在原论文中定义如下：

这与 GRPO 的根本区别在于，GRPO 优化的是 Reward，而 OPSD 优化的是 Student 与“全知 Teacher”之间的分布距离。

〓 OPSD 框架概览：Teacher 利用答案指导 Student 的 On-Policy 生成。

其完整的训练流程如下：

〓 OPSD 训练过程伪代码

实验结论

在 AIME24, AIME25 等高难度数学竞赛数据集上，OPSD 展现了优越的性能。

〓 OPSD 在多个数学基准测试中均超越了 SFT 和 GRPO。

实验数据显示，在 Qwen3-8B 基座上，OPSD 取得了 52.2% 的平均准确率，在相同超参数配置下优于 GRPO (51.3%) 和 SFT (50.0%)。

结语

综合对比这三项工作，Context-based Self-Distillation 在不同领域的落地形态已然清晰：

在持续学习领域（SDFT），Context 是旧任务的演示，解决的是记忆保持的问题；
在强化学习领域（SDPO），Context 是环境反馈，解决的是稀疏奖励下的信用分配问题；
在复杂推理领域（OPSD），Context 是 Ground Truth 答案，解决的是推理路径的搜索效率问题。

这一趋势表明，在缺乏外部强力 Teacher 的情况下，通过合理构造 Inference Context，模型完全有能力利用“后见之明”构建出高质量的监督信号。

对于垂直领域的模型开发者而言，这或许是比单纯堆砌 SFT 数据或盲目上 PPO 更具性价比的方案。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

2026开年新风向：上下文即Teacher，三文详解Self-Distillation新范式

2026年2月的时令，现在室内能种植的作物非常丰富

黑词分析前端组件设计：双面板交互与黑词进度监控

一个SQL注入漏洞就能让整个网站大变样，从SQL注入到XSS攻击，完整还原黑客是如何篡改网站的_黑客攻击修改网站内容

软件测试详解（黑盒测试、白盒测试）

2026年主流降AI工具大盘点：亲测15款降低ai率工具，亲测把AI率降低到10%以下！

收藏必看！大模型微调全攻略：9大PEFT方法详解，小白也能轻松掌握