总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894
https://openreview.net/forum?id=1vvbzAqdTe
![
ICLR 2026 | 零空间安全操控
📄 论文背景与基本信息
《AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint》,由来自新加坡国立大学、中国科学技术大学等机构的 Sheng、Shen 等学者完成。该论文聚焦大模型(LLM)的安全困境:如何在不损害通用能力的前提下,让模型坚决拒绝恶意诱导(如越狱攻击)。现有激活操控方法要么“一刀切”导致过度拒答,要么规则粗糙、缺乏理论支撑。
💡 方法类比:像智能门禁系统
该论文提出 AlphaSteer,一种基于零空间约束的可学习激活操控方法。
💡 例子:想象一栋大楼,内部有普通员工(良性提示)和可疑访客(恶意提示)。传统方法是对所有人同时拉响警报,导致员工也无法正常办公。AlphaSteer 则像一套智能门禁——
它首先学习“员工活动区域”的几何结构(零空间),确保任何操控信号进入该区域时自动归零,不打扰正常工作;
一旦检测到可疑访客,系统动态生成指向“拒绝出口”的专属路径(重构拒答方向向量),将他们引导至安全处置区。
这套机制保证了对恶意行为的精准拦截,同时让良性活动完全不受影响。
🔍 实验发现亮点
安全提升显著,通用能力几乎无损
该论文在 AIM、AutoDAN、GCG 等七种越狱攻击上测试,AlphaSteer 的平均防御成功率(DSR)超过 91%,远优于现有激活操控基线。同时,在 AlpacaEval、GSM8K 等通用任务上,模型性能与原始模型持平,未出现过度拒答。操控强度越大,安全越稳,效用不降
随着操控系数 λ 增加,恶意提示的激活向量被逐渐推离原区域,而良性提示的向量几乎纹丝不动。对比方法 Surgical 则会导致良性激活也发生偏移,造成效用损失。对自适应攻击仍有强鲁棒性
面对白盒 GCG 攻击,AlphaSteer 将攻击损失维持在最高水平,防御成功率高达 95.5%,远高于原始模型(57.5%)和固定拒答向量方法(79.5%)。
💡 学术启示
该论文首次将零空间约束引入激活操控,为 LLM 的推理时安全增强提供了理论严谨、计算轻量的解决方案,有望成为大模型安全部署的通用组件。