news 2026/6/25 14:06:26

每天一个大模型相关知识点系列--GRPO

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每天一个大模型相关知识点系列--GRPO

GRPO(Group Relative Policy Optimization)是一种用于大语言模型第三阶段训练的强化学习方法,最早由 DeepSeek-Math 提出。

在 GRPO 中,模型被视为一个策略 π,直接对其输出分布进行优化。在强化学习建模中,prompt 对应状态 s,模型生成的完整响应对应动作 a,奖励函数或奖励模型给出的评分对应回报 r。

在训练过程中,对于每一个输入 prompt,模型从当前策略分布中采样多个候选响应,这些响应是同一策略下的不同行动样本。随后,reward model 对这些候选输出进行打分,并在 group 内计算相对优势(group-relative advantage),通常通过减去 group 内平均奖励作为 baseline,以降低策略梯度估计的方差。

基于该相对优势,GRPO 采用策略梯度方法对模型参数进行更新,使得获得较高相对奖励的响应在策略分布中的概率增加,而相对奖励较低的响应概率降低。与此同时,为防止策略更新过大、导致模型偏离原始分布,GRPO 通过引入相对于 reference policy 的 KL 散度正则项对策略更新进行约束,从而在探索与稳定性之间取得平衡。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 18:32:09

RAG技术演进:从检索辅助到智能体,掌握大模型应用的关键技术!

简介 RAG技术从早期的"检索阅读"流水线发展到当前的系统化、可信化与智能体化。其演进可分为三个阶段:2017-2019年初步探索、2020-2024年与LLM融合、2025年走向系统化。当前面临的主要挑战包括检索可靠性、系统效率和生成可信度。未来发展趋势包括GraphRA…

作者头像 李华
网站建设 2026/6/23 13:20:20

鸣潮智能自动化系统:如何通过三层架构实现游戏效率革命性提升

鸣潮智能自动化系统:如何通过三层架构实现游戏效率革命性提升 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸上锁合成 自动肉鸽 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves …

作者头像 李华
网站建设 2026/6/24 19:11:30

Linux系统RTL8852BE无线网卡驱动完整解决方案

Linux系统RTL8852BE无线网卡驱动完整解决方案 【免费下载链接】rtl8852be Realtek Linux WLAN Driver for RTL8852BE 项目地址: https://gitcode.com/gh_mirrors/rt/rtl8852be 在Linux系统中使用Realtek RTL8852BE无线网卡时,你是否经常遇到设备无法识别、Wi…

作者头像 李华
网站建设 2026/6/24 10:01:09

pyside6.QtCore.Slot 的简单研究

在 PySide6 中,Slot() 是 信号与槽(Signal & Slot)机制 的核心装饰器,用于将普通 Python 方法声明为 槽函数(Slot)—— 槽函数是专门响应信号(Signal)触发的回调方法&#xff0c…

作者头像 李华
网站建设 2026/6/23 9:18:38

在DevSecOps中,如何将安全测试(SAST/DAST等) 无缝集成到CI/CD流水线?

一、核心理念:安全左移,持续防护 将安全测试从传统“发布前检测”转变为开发全流程的嵌入式检查,实现“安全即代码”。 二、集成架构设计 分层安全测试策略 text CI/CD流水线安全防护链: ├── 提交前(Pre-commit) │ ├── Git Hooks:代码规范/敏感信息扫描 │…

作者头像 李华
网站建设 2026/6/23 17:42:44

腾讯云云渠道商:如何利用镜像实现跨云平台迁移?

一、引言 随着多云战略的普及,跨云迁移已成为企业数字化转型的关键环节。数据显示,超过40%​ 的企业采用多云架构,每年平均迁移23个应用。传统迁移方式存在停机时间长(平均8-12小时)、数据丢失风险(高达15%…

作者头像 李华