news 2026/4/20 6:19:39

CVPR 2026 | SafeGRPO:把多模态安全对齐,从结果优化推进到过程优化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CVPR 2026 | SafeGRPO:把多模态安全对齐,从结果优化推进到过程优化

当很多工作还在依赖大规模安全 SFT、偏好对齐,或者在推理阶段给多模态大模型加各种防御补丁时,SafeGRPO选择了一条更“强化学习式”、也更“可验证”的路线——不用人类偏好模型,不靠黑盒奖励器,而是直接用规则化奖励去优化多模态安全推理过程本身

这篇工作的核心问题很明确:在多模态场景里,风险不一定来自单独的图像或文本,而可能来自图文组合后才显现出的隐式危险语义。很多 MLLM 看上去“能拒答”,但其实并不真正理解跨模态风险;更糟的是,如果只是让模型自由展开安全推理,中间 reasoning trace 本身还可能变得不安全。SafeGRPO 就是在解决这个问题。

  • 论文:SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization
  • 论文地址:https://arxiv.org/abs/2511.12982
  • 代码仓库:https://github.com/XuankunRong/SafeGRPO

1. SafeGRPO 想解决什么问题?

传统多模态安全对齐,很多时候都还是在沿用文本模型时代的思路:

  • 用监督微调教模型“学会拒绝”
  • 用偏好数据让模型“更像安全助手”
  • 或者在推理时加一层检测 / 过滤 / 改写

这些方法当然有效,但在多模态场景里有一个更棘手的问题:

图像可能单独是安全的,文本也可能单独是安全的,但它们组合起来却构成了危险语义。

也就是说,多模态安全的难点不只是“图安不安全”“文安不安全”,而是:

  • 图像和文本之间有没有危险的交互含义
  • 模型能不能识别这种隐式组合风险
  • 模型在推理过程中会不会自己把风险放大

于是,问题就不再只是“最后该不该拒答”,而变成了:

模型能不能先经过一个受约束的安全推理过程,再做出正确的安全行为。

SafeGRPO 的切入点就在这里:
它不是只优化最终回答,而是想把多模态安全推理过程本身也纳入强化学习优化。

2. SafeGRPO 的核心思想是什么?

SafeGRPO 的一句话概括就是:

把多模态安全对齐建模成“可验证的安全推理 + 规则化奖励 + GRPO优化”的过程。

它和很多已有工作的最大区别在于:

  • 别的方法:靠大规模安全 SFT / preference data 去“教”模型安全
  • SafeGRPO:靠规则化 reward 去逼模型学会安全推理

这带来几个直接优势:

第一,不依赖人类偏好模型
它不需要额外训练一个 reward model,也不依赖昂贵的人类偏好数据。

第二,奖励更可解释
它的 reward 不是黑盒分数,而是明确拆成:

  • 格式是否正确
  • 安全标签是否判断对
  • 最终行为是否与安全判断一致

第三,训练目标更贴近“推理安全”本身
SafeGRPO 不是只看你最后拒没拒,而是关心你中间有没有正确识别:

  • 图像风险
  • 文本风险
  • 图文组合风险

所以从方法定位上看,SafeGRPO 不只是“一个安全强化学习方法”,而是一个更偏reasoning-centered safety alignment的框架。

3. SafeGRPO 是如何建模这个问题的?

论文把方法建立在GRPO之上。

3.1 先回到 GRPO

GRPO(Group Relative Policy Optimization)的核心思想是:

  • 对同一个 query 采样一组回答
  • 给每个回答一个 rule-based reward
  • 按组内相对表现来更新策略

具体来说,如果一组回答的 reward 为r1,…,rGr_1, \dots, r_Gr1,,rG,先计算组内均值和标准差:

rˉ=1G∑i=1Gri,s=1G∑i=1G(ri−rˉ)2 \bar{r} = \frac{1}{G}\sum_{i=1}^{G} r_i,\qquad s = \sqrt{\frac{1}{G}\sum_{i=1}^{G}(r_i-\bar{r})^2}rˉ=G1i=1Gri,s=G1i=1G(rirˉ)2

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/20 6:02:43

C++多线程同步:原子操作实战指南

C 多线程同步之原子操作(atomic)实战在多线程编程中,共享数据的同步是避免数据竞争和保证程序正确性的关键。原子操作(atomic operation)提供了一种高效的无锁同步机制,确保对共享变量的操作是不可中断的&a…

作者头像 李华
网站建设 2026/4/20 5:56:20

Chronicle Queue:把 Disruptor 的数据落盘

之前聊过 Disruptor(高性能队列 Disruptor),它的性能逆天,但有个致命问题:纯内存,进程挂了数据就丢了。 Chronicle Queue 就是来解决这个问题的——持久化的 Disruptor。 解决什么问题 Disruptor 的问题…

作者头像 李华