news 2026/4/24 0:27:26

从内部进行大型语言模型安全

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从内部进行大型语言模型安全

摘要

防护模型(Guard models)被广泛用于检测用户提示词和 LLM 回复中的有害内容。然而,当前最先进的防护模型仅依赖终端层的表示,忽视了分布在模型内部各层中丰富的安全相关特征。

我们提出了SIREN,一种轻量级防护模型,能够利用这些内部特征。通过线性探测定位安全神经元,并采用自适应分层加权策略进行组合,SIREN 在不修改底层模型的前提下,基于 LLM 内部结构构建了一个有害性检测器。

我们的综合评估表明,SIREN 在多个基准测试上显著优于最先进的开源防护模型,同时使用的可训练参数减少了250 倍。此外,SIREN 对未见过的基准测试展现出卓越的泛化能力,天然支持实时流式检测,并且相比生成式防护模型,推理效率显著提升。

总体而言,我们的结果凸显了 LLM 内部状态作为实用、高性能有害性检测的一个有前景的基础。代码见:https://github.com/CSSLab/SIREN。

1 引言

大型语言模型(LLM)现已大规模部署(OpenAI, 2025; Anthropic, 2025; Google, 2025),并面临持续的内容安全挑战:用户可能提交有害的提示词,模型也可能生成有害回复(Zou et al., 2023)。为了缓解由此带来的风险,LLM 护栏(guardrails)变得至关重要,而面向安全的专用防护模型已成为主流解决方案(Inan et al., 2023; Han et al., 2024; Zhao et al., 2025a)。这类模型通常以开源 LLM 为骨干,在用户提示词和模型回复上进行微调,通过从模型的终端层解码来进行生成式分类,从而实现有害性检测。

然而,这种对终端层的依赖忽视了编码在整个模型各层中的丰富安全相关特征。近期工作揭示,LLM 的内部表示编码了丰富的专门化特征,利用这些内部表示能在分类任务中带来显著的性能提升(Gurnee et al., 2023; Jiao et al., 2024; Lai et al., 2025)。此外,多项研究表明,LLM 的内部表示编码了用于内容安全的细粒度概念(Zhao et al., 2024, 2025b; Kadali and Papalexakis, 2025)。但这些发现尚未被系统地转化为实用的安全防护模型。这一差距提出了一个问题:我们能否利用 LLM 的内部表示来构建更好的内容有害性检测器?

在本工作中,我们通过一个名为SIREN(利用内部表示的防护)的两阶段框架来利用内部安全相关特征,如图 1 所示。首先,SIREN 采用线性探测(Alain and Bengio, 2016)来定位每一层内的安全相关特征,其基础是线性表示假说——该假说认为语义概念通常在 LLM 中以线性方式表示(Hernandez et al., 2023; Park et al., 2023)。我们将那些对内容安全分类具有高显著性的特征称为每一层的“安全神经元”。由于经验证据表明,跨层的内部神经元集成能带来显著的性能提升(Yu et al., 2018; Jiao et al., 2024),因此在第二阶段,我们聚合所有层的安全神经元,训练一个用于有害性检测的轻量级分类器。我们采用分层加权聚合策略,因为已有研究表明 LLM 具有层次化学习结构,不同层编码不同粒度的特征,且对给定任务的贡献并不相等(Wendler et al., 2024; Skean et al., 2025; Lai et al., 2025)。具体而言,我们基于各层线性探测的验证性能计算层权重,然后将所有层中安全神经元的加权激活拼接起来。这种设计无需修改底层 LLM,使 SIREN 能够作为即插即用的组件运行。

我们系统地从三个维度评估了本框架相对于最先进开源防护模型的性能:有效性、泛化性和效率。第一,在通用 LLM 上训练的 SIREN 参数量减少了 250 倍,却显著优于使用完全相同骨干网络微调得到的对比防护模型。第二,我们展示了 SIREN 能泛化到未见过的推理轨迹基准测试以及流式模式下的有害性检测——后者在 SIREN 训练时未曾见过,要求模型在文本逐词元生成的同时实时分类内容安全性。第三,SIREN 提供了卓越的效率,因为推理仅需一次前向传播,而防护模型需要自回归生成式分类。

我们的贡献有两个方面:

  • 我们提出了SIREN,一种即插即用的防护模型,利用 LLM 内部表示进行有害性检测。

  • 通过在多个基准测试上的评估,我们证明了 SIREN 在性能、泛化性和效率方面均超越了现有的安全防护模型。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/24 0:25:59

VASP多节点GPU计算能效优化实践

1. 多节点VASP模拟的能效优化背景在当今高性能计算领域,能源效率已成为衡量计算中心运营水平的关键指标。随着计算规模的不断扩大,数据中心的能耗问题日益突出。以典型的高性能计算应用VASP(Vienna Ab initio Simulation Package)…

作者头像 李华
网站建设 2026/4/24 0:20:24

XQuery FLWOR 与 HTML 的结合:深度解析与实践指南

XQuery FLWOR 与 HTML 的结合:深度解析与实践指南 引言 XQuery 是一种用于处理 XML 和 XHTML 数据的查询语言,而 HTML 作为网页内容的载体,两者在数据检索和处理方面有着广泛的应用。本文将深入探讨 XQuery 的 FLWOR 模式与 HTML 的结合,分析其优势、应用场景及实践方法。…

作者头像 李华