news 2026/6/23 20:16:32

2026开年新风向:上下文即Teacher,三文详解Self-Distillation新范式

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2026开年新风向:上下文即Teacher,三文详解Self-Distillation新范式

2026 开年三文连发,大模型如何靠上下文实现自我进化?

最近几天,MIT、ETH Zurich 和 UCLA 等团队,几乎在同一时间提交了关于 Self-Distillation 的重磅论文。

虽然它们分别探讨的是持续学习、强化学习和复杂推理,但在技术内核上却高度一致。

这三项工作打破了传统知识蒸馏必须依赖更强外部 Teacher(如 GPT-4)的定式,共同指向了一种 On-Policy Self-Distillation 的新范式:

不再寻找外部导师,而是利用推理时的额外上下文,构建一个比 Base Model 更强的“自我”,以此作为 Teacher 指导训练。

这一范式有效地将推理时的计算转化为了训练时的信号。本文将深度拆解这三篇论文,探讨这一技术路线如何重塑大模型的训练效率。

SDFT

论文标题:

Self-Distillation Enables Continual Learning

论文链接:

https://arxiv.org/pdf/2601.19897

项目链接:

https://github.com/idanshen/Self-Distillation

在持续学习中,SFT 面临严重的灾难性遗忘。传统的解法是维护一个 Replay Buffer 进行混合训练,但这仅仅是数据的回放,而非知识的内化。

SDFT 的核心洞察在于,利用大模型强大的 In-Context Learning 能力作为 Teacher。

核心机制

SDFT 构建了一个 Demonstration-Conditioned Teacher。对于输入,模型检索旧任务的示例作为 Context,构建 Teacher 分布

而 Student 模型则在没有任何演示的情况下,通过 KL 散度去拟合 Teacher 的输出分布。

这是一个典型的 On-Policy 过程,Teacher 指导 Student 如何将“写在 Prompt 里的短期记忆(演示)”内化为“写在参数里的长期记忆(权重)”。

为了更清晰地展示这一过程,原论文详细描绘了从检索 Demonstrations 到 Student Update 的完整数据流:

〓 SDFT 详细流程图

此外,SDFT 的具体实现逻辑非常简洁,原论文在 Algorithm 1 中给出了明确描述,清晰展示了利用 KL 散度进行蒸馏的步骤:

〓 SDFT 算法伪代码,详述了构建 Conditioned Teacher 及计算 Loss 的过程。

实验结论

在 ScienceQA, Hellaswag, MMLU 等数据集的混合评估中,SDFT 在保留旧知识方面的表现显著优于单纯的 SFT 和 DET 方法。

〓 SDFT 在 New Task 和 Previous Tasks 上均取得了最佳的平均表现,显著优于 SFT。

更为关键的是,SDFT 在顺序学习(Sequential Learning)场景下展现了极强的稳定性。

原论文记录了模型在依次学习多个技能时的性能变化:

〓 技能学习动态曲线:随着学习步骤的推进,SDFT 在旧任务上的性能几乎保持水平,未出现 SFT 常见的断崖式下跌,完美印证了其克服灾难性遗忘的能力。

SDPO

论文标题:

Reinforcement Learning via Self-Distillation

论文链接:

https://arxiv.org/pdf/2601.20802

项目链接:

https://github.com/lasgroup/SDPO

在代码生成或科学推理的强化学习场景中,核心难题是 Credit Assignment。

传统的 RLVR 或 GRPO 通常只能获得一个标量的 Reward(代码跑通=1,报错=0),模型难以知晓具体是哪个 Token 导致了错误。

SDPO 提出利用 Rich Feedback(如编译器报错)构建 Self-Teacher,将稀疏的标量信号转化为密集的 Token 级监督。

核心机制

当模型生成的代码触发反馈(如 Runtime Error)时,SDPO 将重新输入给模型。模型利用自身的反思能力和反馈信息,能够识别错误并生成更优的 Token 分布。

此时,Teacher 被定义为 Conditioned on Feedback 的分布。Student则通过蒸馏学习这个“事后诸葛亮”的自己。

这一机制的核心在于将传统的标量奖励设定(RLVR)升级为富反馈设定(RLRF)。原论文直观对比了这两种模式的区别:

〓 RLVR 与 RLRF 设定对比,SDPO 利用 Feedback 构建更强的 Self-Teacher 信号

为了直观理解这一过程,我们可以看一个具体的代码生成案例:

〓 自修正案例展示

模型最初生成的代码导致了 IndexError,将该报错作为 Feedback 输入后,Self-Teacher 成功生成了修正后的代码。

SDPO 正是通过蒸馏这种自我修正的能力来提升模型。

其具体的训练过程如下伪代码所示,明确展示了如何利用 Feedback 构造 Teacher 分布:

〓 SDPO 核心算法,展示了 Feedback 在 Teacher 构建中的关键作用。

实验结论

在基于 Qwen3-8B 的实验中,SDPO 不仅在采样效率上优于 GRPO,在最终的 Pass Rate 上也取得了实质性突破。

〓 SDPO 与 GRPO 训练曲线对比:SDPO 曲线在相同采样次数下达到了更高的 Pass Rate

更详细的 Benchmark 数据进一步证实了这一点:

〓 在多个权威榜单上,SDPO 均取得了比 GRPO 更高的准确率,证明了密集反馈信号的优越性。

OPSD

论文标题:

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

论文链接:

https://arxiv.org/pdf/2601.18734

在数学推理任务中,SFT 存在训练与推理分布偏移的问题。OPSD (On-Policy Self-Distillation) 关注如何利用训练数据中隐含的特权信息——即 Ground Truth 答案

核心机制

OPSD 的逻辑是 Teacher 看着答案生成推理步骤,Student 看着问题学习推理步骤。

Teacher Policy 定义为,它能利用答案作为导航,生成高质量的 CoT。Student Policy则在自己的采样轨迹(Rollouts)上,去拟合 Teacher 的分布。

其核心优化目标(Per-token Divergence)在原论文中定义如下:

这与 GRPO 的根本区别在于,GRPO 优化的是 Reward,而 OPSD 优化的是 Student 与“全知 Teacher”之间的分布距离。

〓 OPSD 框架概览:Teacher 利用答案指导 Student 的 On-Policy 生成。

其完整的训练流程如下:

〓 OPSD 训练过程伪代码

实验结论

在 AIME24, AIME25 等高难度数学竞赛数据集上,OPSD 展现了优越的性能。

〓 OPSD 在多个数学基准测试中均超越了 SFT 和 GRPO。

实验数据显示,在 Qwen3-8B 基座上,OPSD 取得了 52.2% 的平均准确率,在相同超参数配置下优于 GRPO (51.3%) 和 SFT (50.0%)。

结语

综合对比这三项工作,Context-based Self-Distillation 在不同领域的落地形态已然清晰:

  • 在持续学习领域(SDFT),Context 是旧任务的演示,解决的是记忆保持的问题;

  • 在强化学习领域(SDPO),Context 是环境反馈,解决的是稀疏奖励下的信用分配问题;

  • 在复杂推理领域(OPSD),Context 是 Ground Truth 答案,解决的是推理路径的搜索效率问题。

这一趋势表明,在缺乏外部强力 Teacher 的情况下,通过合理构造 Inference Context,模型完全有能力利用“后见之明”构建出高质量的监督信号。

对于垂直领域的模型开发者而言,这或许是比单纯堆砌 SFT 数据或盲目上 PPO 更具性价比的方案。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/20 8:31:36

2026年2月的时令,现在室内能种植的作物非常丰富

根据2026年2月的时令,现在室内能种植的作物非常丰富!我为您整理了以下几类: 一、最适合室内种植的速成蔬菜 叶菜类(水培/土培均可) 生菜 - 10-15天可采收,最受欢迎的水培蔬菜小白菜/上海青 - 生长快&#x…

作者头像 李华
网站建设 2026/6/20 14:28:26

黑词分析前端组件设计:双面板交互与黑词进度监控

前言 在内容安全、情报分析等领域,黑词(敏感词汇)分析是核心工作之一。本文深入解析一个企业级的黑词分析组件前端实现,该系统采用双面板交互设计、黑词进度监控和多维度分析,为安全分析人员提供高效、直观的操作界面…

作者头像 李华
网站建设 2026/6/11 19:42:00

一个SQL注入漏洞就能让整个网站大变样,从SQL注入到XSS攻击,完整还原黑客是如何篡改网站的_黑客攻击修改网站内容

在网络攻击事件中,SQL 注入与XSS 攻击是最常见的组合拳 —— 前者如同打开网站 “后门” 的钥匙,帮助黑客突破数据库与服务器权限;后者则像 “隐形画笔”,让黑客能随意篡改页面内容、劫持用户操作。本文将拆解这两种漏洞的技术原理…

作者头像 李华
网站建设 2026/6/19 16:55:46

软件测试详解(黑盒测试、白盒测试)

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 软件测试方法大类上分为黑盒测试、白盒测试和灰盒测试三种 一、黑盒测试 黑盒测试通俗来说即不知道代码是怎么写的。具体实现逻辑,基于代码输入有哪些…

作者头像 李华
网站建设 2026/6/22 19:09:17

收藏必看!大模型微调全攻略:9大PEFT方法详解,小白也能轻松掌握

大模型参数高效微调(PEFT)有九大主流方法,包括适配器、软提示等。这些方法主要在2021-2023年创立,后续多为小改进。工程应用推荐Adapter/LoRA,可在有限硬件上高效微调模型。 整体来看,主要分以下六大派系。 添加派(Additive) 添加…

作者头像 李华