news 2026/4/29 7:35:55

论文阅读:ICLR 2026 AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文阅读:ICLR 2026 AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint

总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894

https://openreview.net/forum?id=1vvbzAqdTe
![

ICLR 2026 | 零空间安全操控

📄 论文背景与基本信息

《AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint》,由来自新加坡国立大学、中国科学技术大学等机构的 Sheng、Shen 等学者完成。该论文聚焦大模型(LLM)的安全困境:如何在不损害通用能力的前提下,让模型坚决拒绝恶意诱导(如越狱攻击)。现有激活操控方法要么“一刀切”导致过度拒答,要么规则粗糙、缺乏理论支撑。

💡 方法类比:像智能门禁系统

该论文提出 AlphaSteer,一种基于零空间约束的可学习激活操控方法。
💡 例子:想象一栋大楼,内部有普通员工(良性提示)和可疑访客(恶意提示)。传统方法是对所有人同时拉响警报,导致员工也无法正常办公。AlphaSteer 则像一套智能门禁——
它首先学习“员工活动区域”的几何结构(零空间),确保任何操控信号进入该区域时自动归零,不打扰正常工作;
一旦检测到可疑访客,系统动态生成指向“拒绝出口”的专属路径(重构拒答方向向量),将他们引导至安全处置区。
这套机制保证了对恶意行为的精准拦截,同时让良性活动完全不受影响。

🔍 实验发现亮点

  1. 安全提升显著,通用能力几乎无损
    该论文在 AIM、AutoDAN、GCG 等七种越狱攻击上测试,AlphaSteer 的平均防御成功率(DSR)超过 91%,远优于现有激活操控基线。同时,在 AlpacaEval、GSM8K 等通用任务上,模型性能与原始模型持平,未出现过度拒答。

  2. 操控强度越大,安全越稳,效用不降
    随着操控系数 λ 增加,恶意提示的激活向量被逐渐推离原区域,而良性提示的向量几乎纹丝不动。对比方法 Surgical 则会导致良性激活也发生偏移,造成效用损失。

  3. 对自适应攻击仍有强鲁棒性
    面对白盒 GCG 攻击,AlphaSteer 将攻击损失维持在最高水平,防御成功率高达 95.5%,远高于原始模型(57.5%)和固定拒答向量方法(79.5%)。

💡 学术启示

该论文首次将零空间约束引入激活操控,为 LLM 的推理时安全增强提供了理论严谨、计算轻量的解决方案,有望成为大模型安全部署的通用组件。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/29 7:35:54

C++程序代码优化的方法实例大全

选择一种合适的数据结构很重要,如果在一堆随机存放的数中使用了大量的插入和删除指令,那使用链表要快得多。数组与指针语句具有十分密切的关系,一般来说,指针比较灵活简洁,而数组则比较直观,容易理解。对于…

作者头像 李华
网站建设 2026/4/29 7:33:32

推荐2款无需安装实用软件,桌面图标整理设置,简真是Windows神器!

聊一聊今天给大家推荐2款桌面美化小工具。为什么觉得要推荐这个小工具呢?因为最近帮一些人远程处理一些问题。感觉那电脑桌面,密密麻麻,全是小图标。我想找个东西都难,是太难了。我真恨不得上手整理。但又怕整理了,人家…

作者头像 李华
网站建设 2026/4/29 7:28:36

文件存储系统

文件存储系统:数字时代的基石 在数字化浪潮席卷全球的今天,文件存储系统已成为信息管理的核心基础设施。无论是个人用户保存照片文档,还是企业处理海量业务数据,文件存储系统都在背后默默支撑着数据的存取与管理。随着云计算、大…

作者头像 李华
网站建设 2026/4/29 7:07:03

jdk 21虚拟线程

什么是虚拟线程?在 Java 21 之前,Java 的 Thread 是对操作系统线程(也称为平台线程)的一层薄封装,两者是 1:1 的关系。这意味着:资源开销大:每个平台线程需要占用约 1MB 的栈内存,创…

作者头像 李华