【大模型越狱】【ICML2025】Weak-to-Strong Jailbreaking on Large Language Models-平芜编程栈

Abstract

大型语言模型（LLM）容易受到越狱攻击，导致生成有害、不道德或有偏见的内容。然而，现有的越狱方法计算成本高昂。本文提出了一种高效的推理时攻击方法——弱到强（weak-to-strong）越狱攻击，用于诱导对齐后的LLM生成有害文本。我们的核心观察是：越狱模型与安全模型仅在初始解码分布上存在差异。该方法的技术关键在于，利用两个较小的模型（一个安全、一个不安全）在解码阶段对更大规模的安全模型进行概率层面的对抗性修改。我们在来自3个机构的5个开源LLM上评估了该方法，结果显示，仅需对每个样本进行一次前向传播，即可在两个数据集上将“不对齐率”提升至99%以上。本研究揭示了LLM对齐中亟需解决的安全问题。作为初步尝试，我们提出了一种防御策略，但构建更先进的防御仍然充满挑战。相关代码已开源。

Code: https://github.com/XuandongZhao/weak-to-strong

1 Introduction

大型语言模型（LLM）的变革能力伴随着对其安全性和可信度的日益关注。若无适当防护，LLM 可能被用于传播虚假信息或实施犯罪活动，促使开发者引入安全措施与对齐技术。开源 LLM 面临独特风险：攻击者可修改模型权重并采用替代解码策略，使事后护栏失效，其安全性完全依赖内在对齐，而内在对齐仍可能被对抗性操纵。即使已对齐的模型，也可能被精心构造的人工提示越狱。

现有自动越狱攻击可归纳为四类：(1) 利用另一 LLM 生成绕过安全协议的对抗提示；(2) 通过反向传播优化对抗提示；(3) 直接微调模型权重以永久改变行为；(4) 在解码阶段操纵生成概率。然而，针对更大规模模型（如 405B）实施上述攻击时，极端计算开销成为瓶颈。

本文首先深入分析为何安全对齐的 LLM 在对抗攻击面前依然脆弱。通过比较安全模型与越狱模型的 token 分布，发现分布差异主要集中在初始解码步骤。基于这一“浅层安全对齐”观察，我们提出将对抗解码本身视为针对开源模型的有效越狱方法。实验表明，强大的安全 LLM（如 70B）可被弱小的不安全模型轻易误导，产生有害输出，我们称之为弱到强越狱（Weak-to-Strong Jailbreaking）。该方法无需大量计算资源，也无需复杂提示工程。

弱到强越狱的核心在于：攻击者仅用小型模型即可通过 logit (例如Safe-70B + α ( Unsafe-7B − Safe-7B ) \text{Safe-70B} + \alpha(\text{Unsafe-7B} - \text{Safe-7B})Safe-70B+α(Unsafe-7B−Safe-7B)）将有害知识“传递”给大型模型，在单次前向传播中直接诱导大型模型生成有害内容。相比小型攻击模型，被攻击的大型模型可产生更详尽、更危险的内容。

我们在来自 3 个机构的 5 个开源 LLM 上评估了弱到强攻击，结果显示该方法在两个数据集上均达到> 99 % >99\%>99%的攻击成功率（ASR），且被攻击输出的有害程度显著高于小型攻击模型。为缓解该风险，我们提出一种基于梯度上升的初始防御策略，但构建更强防御仍极具挑战。

综上，弱到强越狱揭示了对齐仅作用于初始 token 的表层现象，暴露了对齐机制的深层脆弱性。我们呼吁社区加强对开源 LLM 对齐与安全护栏的研究。本文贡献如下：

发现安全与不安全 LLM 在初始解码分布上的统计差异，表明现有对齐尚不够深入；
提出弱到强越狱攻击，利用小模型在推理时引导大模型生成有害内容，仅需一次前向传播；
在 5 个 LLM 上的实验表明，该方法在两个数据集上 ASR 均超过 99%，显著优于现有方法。

2 Related Work

对齐 LLM 的越狱攻击
受最坏情况对抗鲁棒性评估启发，近期研究探索了语言模型在对抗攻击下的漏洞，并揭示新兴安全风险。除人工越狱外，自动攻击引发重大关切，可分为四类：
(1) 利用 LLM 直接生成绕过安全协议的字符串，如 AutoDAN、PAIR；
(2) 通过反向传播进行对抗提示优化，如 GCG 攻击；
(3) 直接修改模型权重，研究表明仅需少量有害样本微调即可移除开源与闭源模型的安全保护；
(4) 在解码阶段实施攻击，例如通过调节解码参数或强制模型在特定位置生成特定 token，以诱导有害输出。
尽管上述攻击取得进展，它们或需大量反向优化计算，或需众多前向查询，或需精心搜索最优解码参数，针对更大规模模型时仍面临挑战。

LLM 解码
近期工作致力于利用小模型改进大模型解码。对比解码（contrastive decoding）通过减去小模型缩放后的 log 概率来引导大模型采样；投机采样（speculative sampling）利用快速小模型提前预测后续 token，降低推理延迟；DExperts 在解码时结合“专家”与“反专家”语言模型，实现受控文本生成，聚焦于语言去毒与情感控制；代理调优（proxy-tuning）则利用小模型微调前后的预测差异来偏移大模型原始预测，验证其在知识基准上的性能。
与上述工作不同，本文并非在解码时对输出进行对齐，而是利用小模型在解码时对大模型实施攻击，通过 logit 操纵使大模型生成有害内容，从而暴露其漏洞并扩展操纵潜力。

3 Proposed Method

3.1 Analysis of Token Distribution in Safety Alignment

为了探究安全对齐模型为何仍可能生成有害内容，我们比较了安全与不安全模型在面对恶意问题与一般问题时的平均 token 分布。

我们选用 Llama2-7B-Chat 作为 Safe-7B 模型，并在收集的有害问答对上对其进行微调（可对超过 95% 的恶意问题作答）得到 Unsafe-7B 模型；Llama2-13B-Chat 作为 Safe-13B 模型。恶意问题来自 AdvBench 数据集，一般问题来自开放问答数据集。此外，我们对比了模型在有无对抗提示下的行为差异。

对同一前缀q , y < ; t {q,y_{\lt;t}}q,y<;t，计算安全分布P PP与不安全分布Q QQ的 KL 散度：
D KL ( P t ∥ Q t ) = ∑ y t ∈ V P ( y t ∣ q , y < ; t ) log ⁡ P ( y t ∣ q , y < ; t ) Q ( y t ∣ q , y < ; t ) D_{\text{KL}}(P_t\parallel Q_t)=\sum_{y_t\in V}P(y_t\mid q,y_{\lt;t})\log\frac{P(y_t\mid q,y_{\lt;t})}{Q(y_t\mid q,y_{\lt;t})}DKL(Pt∥Qt)=yt∈V∑P(yt∣q,y<

【大模型越狱】【ICML2025】Weak-to-Strong Jailbreaking on Large Language Models

Abstract

1 Introduction

2 Related Work

3 Proposed Method

3.1 Analysis of Token Distribution in Safety Alignment

MATLAB模糊控制算法在驾驶员制动意图识别中的应用：试验案例、模型与模糊控制器

操作指定目录下的文件，对特定参数赋值，接口函数

L298N模块在STM32最小系统中的集成方法：小白指南

[内网流媒体] 零信任理念在内网工具中的落地

STM32推挽输出是否需要外加上拉电阻？通俗解释

2026-01-11：三段式数组Ⅱ。用go语言，给定长度为 n 的整数序列 nums，要求选出一个包含至少四个元素的连续区间 [a, b]（0 ≤ a ＜ b ＜ n），并在区间内选两个切分点 a ＜