news 2026/5/13 0:59:26

大模型后训练新范式:On-Policy Distillation(OPD)原理、流程与实验实践详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型后训练新范式:On-Policy Distillation(OPD)原理、流程与实验实践详解

下面按“原理 → 目标函数 → 训练循环 → 实验步骤 → 诊断与排错”来解释。

这里的On-Policy Distillation,OPD,不是单一固定算法,而是一类后训练范式:学生模型先按当前策略生成自己的回答轨迹,再让教师模型在这些学生真实访问到的状态上提供 token-level / step-level 监督信号

Thinking Machines Lab 对它的概括是:SFT 是 off-policy + dense signal,RL 是 on-policy + sparse signal,而 OPD 试图结合两者,即on-policy + dense signal


1. OPD 的核心思想

传统蒸馏通常是:

Prompt → 教师模型生成标准答案 → 学生模型模仿教师答案

这属于off-policy distillation。问题是学生训练时看到的是教师轨迹,推理时却走自己的轨迹;一旦学生自己前几步走偏,后续上下文就偏离训练分布,容易出现 exposure bias。

OPD 改成:

Prompt → 学生模型自己生成答案 → 教师模型评价学生每一步 → 学生根据教师反馈更新

关键区别是:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 0:59:11

利用大语言模型与静态分析为代码库生成智能摘要

1. 项目概述:当代码库成为“黑盒”,我们需要一把钥匙你有没有过这样的经历?接手一个全新的、或者已经迭代了数年的老项目,面对成千上万个文件,感觉无从下手。README可能过时了,文档可能缺失,而代…

作者头像 李华
网站建设 2026/5/13 0:51:30

AI赋能二进制漏洞挖掘:从特征提取到模型实战

1. 项目概述:当二进制安全遇上AI最近在安全圈里,一个名为“BinAIVulHunter”的项目引起了我的注意。这个名字拆开来看,就是“Binary AI Vulnerability Hunter”——一个利用人工智能来狩猎二进制程序漏洞的工具。作为一个在二进制安全和逆向工…

作者头像 李华
网站建设 2026/5/13 0:51:29

【SpringBoot 从入门到架构师】第7章:拦截器、过滤器、跨域处理

1. 过滤器Filter:自定义过滤器、执行顺序、应用场景一、自定义过滤器基础实现方式方式一:实现 Filter 接口Component public class CustomFilter implements Filter {Overridepublic void init(FilterConfig filterConfig) {// 初始化逻辑}Overridepubli…

作者头像 李华
网站建设 2026/5/13 0:47:50

重庆大学LaTeX毕业论文模板:3步完成专业论文排版的完整指南

重庆大学LaTeX毕业论文模板:3步完成专业论文排版的完整指南 【免费下载链接】CQUThesis :pencil: 重庆大学毕业论文LaTeX模板---LaTeX Thesis Template for Chongqing University 项目地址: https://gitcode.com/gh_mirrors/cq/CQUThesis 还在为毕业论文格式…

作者头像 李华
网站建设 2026/5/13 0:47:48

利用Taotoken模型广场为智能客服场景选择合适的对话模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用Taotoken模型广场为智能客服场景选择合适的对话模型 为智能客服系统选择对话模型,是一个需要平衡响应速度、成本与…

作者头像 李华