大模型后训练新范式：On-Policy Distillation（OPD）原理、流程与实验实践详解-平芜编程栈

下面按“原理 → 目标函数 → 训练循环 → 实验步骤 → 诊断与排错”来解释。

这里的On-Policy Distillation，OPD，不是单一固定算法，而是一类后训练范式：学生模型先按当前策略生成自己的回答轨迹，再让教师模型在这些学生真实访问到的状态上提供 token-level / step-level 监督信号。

Thinking Machines Lab 对它的概括是：SFT 是 off-policy + dense signal，RL 是 on-policy + sparse signal，而 OPD 试图结合两者，即on-policy + dense signal。

1. OPD 的核心思想

传统蒸馏通常是：

Prompt → 教师模型生成标准答案 → 学生模型模仿教师答案

这属于off-policy distillation。问题是学生训练时看到的是教师轨迹，推理时却走自己的轨迹；一旦学生自己前几步走偏，后续上下文就偏离训练分布，容易出现 exposure bias。

OPD 改成：

Prompt → 学生模型自己生成答案 → 教师模型评价学生每一步 → 学生根据教师反馈更新

关键区别是：

【收藏级】2026年大模型系统化学习路线（小白/程序员必看），避开弯路快速上岸

2026年，大模型早已褪去“技术热点”的光环，沉淀为职场必备技能，从日常智能客服、高效内容创作，到专业金融分析、工业质检风控，其应用场景持续渗透各行各业，不仅催生了大量高薪岗位，更成为职场人…

李华

利用大语言模型与静态分析为代码库生成智能摘要

1. 项目概述：当代码库成为“黑盒”，我们需要一把钥匙你有没有过这样的经历？接手一个全新的、或者已经迭代了数年的老项目，面对成千上万个文件，感觉无从下手。README可能过时了，文档可能缺失，而代…

李华

AI赋能二进制漏洞挖掘：从特征提取到模型实战

1. 项目概述：当二进制安全遇上AI最近在安全圈里，一个名为“BinAIVulHunter”的项目引起了我的注意。这个名字拆开来看，就是“Binary AI Vulnerability Hunter”——一个利用人工智能来狩猎二进制程序漏洞的工具。作为一个在二进制安全和逆向工…

李华

【SpringBoot 从入门到架构师】第7章：拦截器、过滤器、跨域处理

1. 过滤器Filter：自定义过滤器、执行顺序、应用场景一、自定义过滤器基础实现方式方式一：实现 Filter 接口Component public class CustomFilter implements Filter {Overridepublic void init(FilterConfig filterConfig) {// 初始化逻辑}Overridepubli…

李华

重庆大学LaTeX毕业论文模板：3步完成专业论文排版的完整指南

重庆大学LaTeX毕业论文模板：3步完成专业论文排版的完整指南【免费下载链接】CQUThesis :pencil: 重庆大学毕业论文LaTeX模板---LaTeX Thesis Template for Chongqing University 项目地址: https://gitcode.com/gh_mirrors/cq/CQUThesis 还在为毕业论文格式…

$作者头像$ 李华

利用Taotoken模型广场为智能客服场景选择合适的对话模型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度利用Taotoken模型广场为智能客服场景选择合适的对话模型为智能客服系统选择对话模型，是一个需要平衡响应速度、成本与…

李华