news 2026/3/12 21:53:05

CKA-Agent:揭示商业LLM安全防线的“特洛伊知识“漏洞

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CKA-Agent:揭示商业LLM安全防线的“特洛伊知识“漏洞

🔓 CKA-Agent:揭示商业LLM安全防线的"特洛伊知识"漏洞

论文标题: The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

项目地址: https://github.com/Graph-COM/CKA-Agent

论文主页: https://cka-agent.github.io/

ArXiv: https://arxiv.org/abs/2512.01353


📢 前言

随着ChatGPT、Claude、Gemini等商业大语言模型(LLM)的广泛应用,如何确保它们的安全性成为了一个核心问题。各大厂商都投入了大量资源来构建"护栏"(Guardrails)系统,以防止模型被滥用产生有害内容。

但问题来了:这些护栏真的固若金汤吗?

今天要介绍的CKA-Agent项目,正是来自佐治亚理工、UIUC、清华等机构研究团队的一项重磅工作,它揭示了一个被业界忽视的根本性漏洞——相关知识攻击(Correlated Knowledge Attack)


🎯 核心发现:LLM内部知识的"特洛伊木马"

传统攻击方法为何失效?

目前主流的越狱攻击(Jailbreak)方法可以分为两大类:

方法类型代表方法核心思路存在问题
提示优化攻击(POA)PAIR, AutoDAN, PAP通过优化prompt来绕过检测恶意意图仍可被语义检测识别
分解攻击(DOA)Multi-Agent Jailbreak将有害请求分解为子任务分解策略固定,缺乏自适应性

研究团队发现:针对GPT-o系列和Claude等具有强大安全防御的模型,传统POA方法的成功率从90.5%暴跌至3.2%

CKA-Agent的革命性洞察

核心观点:LLM的知识不是孤立存在的,而是相互关联的"知识图谱"。敏感信息可以通过一系列看似完全无害的查询逐步重构出来!

这就像古希腊的特洛伊木马——每个士兵单独看都是无害的礼物,但组合起来就能攻陷特洛伊城。


🔧 CKA-Agent工作原理

CKA-Agent将越狱问题重新定义为自适应树搜索问题,核心流程如下:

┌─────────────────────────────────────────────────────────┐ │ CKA-Agent 工作流程 │ ├─────────────────────────────────────────────────────────┤ │ 1. 🎯 目标分解: 将目标拆解为无害的子查询 │ │ 2. 📤 执行查询: 向目标模型发送子查询并收集响应 │ │ 3. 📊 混合评估: 结合内省评分和目标反馈进行评估 │ │ 4. 🌿 自适应分支: 基于UCT策略探索多条有前景的路径 │ │ 5. 🔗 知识合成: 从成功轨迹中综合累积的知识 │ │ 6. ⬅️ 反向传播: 传递失败信号以指导未来探索 │ └─────────────────────────────────────────────────────────┘

自适应分支搜索算法

CKA-Agent采用了改进的蒙特卡洛树搜索(MCTS)思想:

  • 选择(Selection): 使用全局UCT策略选择最有希望的叶节点
    argmax(f_v + c√(ln N_parent / N_v))

  • 扩展(Expansion): 自适应分支策略

    • 高置信度路径:B=1(单一扩展)
    • 不确定路径:B≤3(多分支探索)
  • 评估(Evaluation): 混合评分机制
    Hybrid Score = α·(内省评分) + (1-α)·(目标反馈)

  • 终止条件: 综合答案达到评判阈值即成功


📊 实验结果:碾压级性能表现

实验设置

  • 数据集: HarmBench (126样本) + StrongREJECT (162样本) = 288个高风险有害提示
  • 目标模型: Gemini-2.5-Flash/Pro, GPT-o系列, Claude-Haiku-4.5
  • 攻击模型: Qwen3-32B-abliterated
  • 评判模型: Gemini-2.5-Flash (4级评分标准)

核心实验发现

发现详情
🚨POA方法灾难性失败在强防御模型上从90.5%暴跌至3.2%,恶意意图仍可被检测
DOA方法相对稳定Multi-Agent Jailbreak达到76.2%–81.8%,比PAIR提升24倍
🏆CKA-Agent SOTA达到**96-99%**攻击成功率,比最佳基线提升15-21个百分点
🔍关键漏洞暴露当前护栏无法聚合跨查询的意图

与基线方法的对比

攻击成功率对比 (Claude-Haiku-4.5): ┌────────────────────────────────────────────────────────┐ │ PAIR ███ 3.2% │ │ AutoDAN ████ 4.1% │ │ PAP █████ 6.8% │ │ Multi-Agent ████████████████████████████ 78.4% │ │ CKA-Agent ██████████████████████████████████ 97.2% │ └────────────────────────────────────────────────────────┘

上下文感知防御测试

研究团队还测试了提供对话历史是否能帮助模型检测攻击:

  • CKA-Agent: 每个子查询独立发送(无历史)
  • CKA-Agent-Branch: 每个子查询包含完整对话历史

结果: 即使有完整对话历史,CKA-Agent-Branch仍能达到**78.6%+**的成功率!这表明当前LLM难以在多轮交互中聚合意图。


🏗️ 项目架构详解

CKA-Agent/ ├── 📁 config/ # 实验配置 │ ├── config.yml # 主配置文件 │ └── method/ # 各方法独立配置 ├── 📁 data/ # 数据集 │ └── datasets/ # HarmBench & StrongREJECT ├── 📁 defense/ # 防御机制实现 │ ├── llm_guard.py # LLM Guard防御 │ ├── perturbation_defense.py │ └── rephrasing_defense.py ├── 📁 evaluation/ # 评估系统 │ └── evaluator.py # 评判器实现 ├── 📁 methods/ # 攻击方法 │ ├── baseline/ # 基线方法(PAIR, AutoDAN, PAP等) │ └── proposed/ # CKA-Agent核心实现 │ ├── cka_agent.py # 主方法 │ └── core_modules/ # 核心模块 │ ├── controller_llm.py # 控制器LLM │ ├── asr_evaluator.py # ASR评估器 │ └── synthesizer.py # 知识合成器 ├── 📄 main.py # 主入口 └── 📄 run_experiment.sh # 实验运行脚本

🚀 快速上手

环境配置

# 安装 uv 包管理器curl-LsSf https://astral.sh/uv/install.sh|sh# 创建虚拟环境uv venv --python3.12source.venv/bin/activate# 安装依赖uv pipinstallvllm --torch-backend=auto uv pipinstallaccelerate fastchat nltk pandas google-genai httpx[socks]anthropic

配置实验

编辑config/config.yml进行配置:

# 选择数据集data:dataset_names:["harmbench_cka","strongreject_cka"]# 设置目标模型model:target_model:"gemini-2.5-flash"# 启用CKA-Agent方法methods:baselines:-"cka-agent"# 配置评估evaluation:judge_model:"gemini-2.5-flash"metrics:["attack_success_rate","harmful_rate"]# 防御设置(可选)defense:enabled:falsetype:"llm_guard"

运行实验

# 完整实验流程./run_experiment.sh# 或分阶段运行python main.py --phase jailbreak# 仅运行攻击python main.py --phase judge# 仅运行评估python main.py --phase resume# 恢复中断的实验

💡 对AI安全的启示

当前防御的不足

  1. 点状检测局限: 现有护栏只能检测单条查询的恶意意图
  2. 跨查询聚合缺失: 无法关联多个看似无害的查询
  3. 上下文推理薄弱: 即使有对话历史也难以识别渐进式攻击

未来防御方向

研究团队提出了重要的防御建议:

🛡️未来的护栏系统必须增强跨查询意图聚合和长上下文推理能力

这意味着防御系统需要:

  • 实现对话级别的意图追踪
  • 建立知识访问模式的异常检测
  • 开发能够理解知识关联性的元认知防御

🔬 研究团队

本项目由来自多个顶尖机构的研究者合作完成:

  • Rongzhe Wei- Purdue University
  • Peizhi Niu- Purdue University
  • Xinjie Shen- Purdue University
  • Tony Tu,Yifan Li,Ruihan Wu- 研究团队成员
  • Eli Chien- Georgia Institute of Technology
  • Pin-Yu Chen- IBM Research
  • Olgica Milenkovic- UIUC
  • Pan Li- Purdue University (通讯作者)

📖 引用

如果这个项目对你的研究有帮助,请考虑引用:

@misc{wei2025trojan, title={The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search}, author={Rongzhe Wei and Peizhi Niu and Xinjie Shen and Tony Tu and Yifan Li and Ruihan Wu and Eli Chien and Pin-Yu Chen and Olgica Milenkovic and Pan Li}, year={2025}, eprint={2512.01353}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2512.01353}, }

🎓 总结

CKA-Agent项目揭示了一个被业界长期忽视的安全盲区:LLM内部知识的关联性可以被利用来规避安全防护

这项研究的意义不仅在于展示了一种高效的攻击方法,更重要的是为AI安全社区指明了防御改进的方向。正如论文作者所强调的,他们已经向相关模型提供商进行了负责任的披露,目的是推动整个行业建立更强大的安全机制。

🔗 相关链接:

  • 📦 GitHub: https://github.com/Graph-COM/CKA-Agent
  • 📄 论文: https://arxiv.org/abs/2512.01353
  • 🌐 主页: https://cka-agent.github.io/
  • 🏆 排行榜: https://cka-agent.github.io/leaderboard.html

免责声明: 本文仅用于学术交流目的,旨在帮助研究社区理解和改进LLM安全机制。请勿将相关技术用于任何恶意目的。

👍 觉得有用的话,欢迎点赞收藏,持续关注AI安全领域的最新进展!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/10 13:25:23

PyTorch模型加载Qwen3-32B时报OOM?显存优化建议

PyTorch加载Qwen3-32B显存爆炸?一文讲透高效运行方案 在构建企业级AI系统时,你是否曾遇到这样的窘境:明明手握RTX 4090或A100,却连一个开源的Qwen3-32B都加载不起来?屏幕上赫然弹出“CUDA out of memory”&#xff0c…

作者头像 李华
网站建设 2026/3/12 11:49:18

PN学堂-《电子元器件》- 电容

电容,作为电子电路中最基础、最普遍的无源元件之一,其“隔直通交”的基本特性看似简单,却在不同电路场景中展现出丰富而多样的功能。在PN学堂的电子元器件课程中,我们特别强调:理解电容不能只看参数,更要结…

作者头像 李华
网站建设 2026/3/10 17:04:02

LangChain+Seed-Coder-8B-Base构建企业级代码自动化系统

LangChain Seed-Coder-8B-Base 构建企业级代码自动化系统 在现代软件研发节奏日益加快的背景下,企业对开发效率、代码质量与团队协作一致性的要求达到了前所未有的高度。传统“人写代码—机器执行”的线性模式正悄然被“人机协同编程”所取代。智能补全、函数自动生…

作者头像 李华
网站建设 2026/3/9 13:06:09

Modbus转EtherCAT网关:真空浓缩设备的 “通讯加速器”

在现代工业自动化领域,Modbus RTU和EtherCAT是两种广泛使用的通信协议,它们分别扮演着重要的角色。将Modbus RTU协议转换为EtherCAT协议,并分析其在真空浓缩设备中的应用。Modbus RTU是一种串行通信协议,广泛应用于各种工业设备中…

作者头像 李华
网站建设 2026/3/4 16:06:50

华大HC32F460配置JTAG调试引脚为普通GPIO(PB03、PA15等)

背景 由于项目需要,使用的SWD调试对芯片进行下载与调试,未使用JTAG相关功能,同时GPIO引脚不够用,于是需要将PB03(JTDO/SWO)和PA15(JTDI)设置为普通的GPIO来使用; 问题 由于PB03(JTDO/SWO)和PA15(JTDI)默认用于JTAG功能…

作者头像 李华
网站建设 2026/3/10 17:53:39

LobeChat主题定制教程:打造品牌专属的AI交互界面

LobeChat主题定制教程:打造品牌专属的AI交互界面 在企业纷纷拥抱AI的今天,一个智能聊天界面是否“像自己”,往往比它用了哪个大模型更关键。用户打开网页,第一眼看到的不是GPT-4还是Claude,而是颜色、字体、Logo——这…

作者头像 李华