当很多工作还在依赖大规模安全 SFT、偏好对齐,或者在推理阶段给多模态大模型加各种防御补丁时,SafeGRPO选择了一条更“强化学习式”、也更“可验证”的路线——不用人类偏好模型,不靠黑盒奖励器,而是直接用规则化奖励去优化多模态安全推理过程本身。
这篇工作的核心问题很明确:在多模态场景里,风险不一定来自单独的图像或文本,而可能来自图文组合后才显现出的隐式危险语义。很多 MLLM 看上去“能拒答”,但其实并不真正理解跨模态风险;更糟的是,如果只是让模型自由展开安全推理,中间 reasoning trace 本身还可能变得不安全。SafeGRPO 就是在解决这个问题。
- 论文:SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization
- 论文地址:https://arxiv.org/abs/2511.12982
- 代码仓库:https://github.com/XuankunRong/SafeGRPO
1. SafeGRPO 想解决什么问题?
传统多模态安全对齐,很多时候都还是在沿用文本模型时代的思路:
- 用监督微调教模型“学会拒绝”
- 用偏好数据让模型“更像安全助手”
- 或者在推理时加一层检测 / 过滤 / 改写
这些方法当然有效,但在多模态场景里有一个更棘手的问题:
图像可能单独是安全的,文本也可能单独是安全的,但它们组合起来却构成了危险语义。
也就是说,多模态安全的难点不只是“图安不安全”“文安不安全”,而是:
- 图像和文本之间有没有危险的交互含义
- 模型能不能识别这种隐式组合风险
- 模型在推理过程中会不会自己把风险放大
于是,问题就不再只是“最后该不该拒答”,而变成了:
模型能不能先经过一个受约束的安全推理过程,再做出正确的安全行为。
SafeGRPO 的切入点就在这里:
它不是只优化最终回答,而是想把多模态安全推理过程本身也纳入强化学习优化。
2. SafeGRPO 的核心思想是什么?
SafeGRPO 的一句话概括就是:
把多模态安全对齐建模成“可验证的安全推理 + 规则化奖励 + GRPO优化”的过程。
它和很多已有工作的最大区别在于:
- 别的方法:靠大规模安全 SFT / preference data 去“教”模型安全
- SafeGRPO:靠规则化 reward 去逼模型学会安全推理
这带来几个直接优势:
第一,不依赖人类偏好模型。
它不需要额外训练一个 reward model,也不依赖昂贵的人类偏好数据。
第二,奖励更可解释。
它的 reward 不是黑盒分数,而是明确拆成:
- 格式是否正确
- 安全标签是否判断对
- 最终行为是否与安全判断一致
第三,训练目标更贴近“推理安全”本身。
SafeGRPO 不是只看你最后拒没拒,而是关心你中间有没有正确识别:
- 图像风险
- 文本风险
- 图文组合风险
所以从方法定位上看,SafeGRPO 不只是“一个安全强化学习方法”,而是一个更偏reasoning-centered safety alignment的框架。
3. SafeGRPO 是如何建模这个问题的?
论文把方法建立在GRPO之上。
3.1 先回到 GRPO
GRPO(Group Relative Policy Optimization)的核心思想是:
- 对同一个 query 采样一组回答
- 给每个回答一个 rule-based reward
- 按组内相对表现来更新策略
具体来说,如果一组回答的 reward 为r1,…,rGr_1, \dots, r_Gr1,…,rG,先计算组内均值和标准差:
rˉ=1G∑i=1Gri,s=1G∑i=1G(ri−rˉ)2 \bar{r} = \frac{1}{G}\sum_{i=1}^{G} r_i,\qquad s = \sqrt{\frac{1}{G}\sum_{i=1}^{G}(r_i-\bar{r})^2}rˉ=G1i=1∑Gri,s=G1i=1∑G(ri−rˉ)2