news 2026/7/2 1:51:41

Prompt Injection 防御源码拆解:Hermes 如何用 36 条正则 + 三级作用域对抗 AI Agent 攻击

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Prompt Injection 防御源码拆解:Hermes 如何用 36 条正则 + 三级作用域对抗 AI Agent 攻击

Prompt Injection 防御源码拆解:Hermes 如何用 36 条正则 + 三级作用域对抗 AI Agent 攻击

安全专题第一篇:从 Brainworm 到 C2 持久化,拆解threat_patterns.py的完整攻击模型

TL;DR

2026 年,AI Agent 面临的最大安全威胁不是 SQL 注入、不是 XSS——而是Prompt Injection。攻击者不需要入侵你的服务器,只需要在你的 Agent 读取的网页、GitHub Issue、MCP 响应里嵌入一段精心构造的文字,就能让 Agent 变成攻击者的傀儡。

Hermes Agent 的防御核心是一个只有252 行的 Python 模块——tools/threat_patterns.py。它用36 条正则表达式17 个隐形 Unicode 字符检测,构建了三级作用域的防御体系。本文拆解它的攻击分类模型、Brainworm 黄金标准回归测试、以及为什么「WARN 不 BLOCK」是正确策略。


一、攻击模型:Agent 面临的不是一种攻击,是三类

1.1 为什么传统安全模型不够?

传统的 Web 安全模型是:输入 → 过滤 → 输出。攻击面在输入边界。

Agent 的安全模型完全不同:输入 → 理解 → 执行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 1:50:16

Qt-摄像头捕获画面

在qt中捕获摄像头画面,在ui界面上添加一个comboBox控件、label标签和两个pushButton按钮,comboBox用于显示摄像头的设备,按钮用于开启摄像头和捕获当前帧的画面,label用于显示摄像头捕获的画面。//需要在.pro文件中加上multimedia…

作者头像 李华
网站建设 2026/7/2 1:48:15

聊聊跨域问题

跨域到底该谁管?浏览器、代理与 Gateway CORS适用:WeekFlow 前后端分离开发(Vite Gateway Nginx) 读者:前后端开发、运维1. 从一个报错说起 前端跑在 http://localhost:5173,Gateway 在 http://localhost…

作者头像 李华
网站建设 2026/7/2 1:46:37

SSE客户端C++实现(使用libcurl)

SSE协议 的全称是 Server-Sent Events(服务器发送事件),本质是基于 HTTP 协议的 “单向实时推送技术”——只有服务器能主动给客户端发消息,除了发送订阅请求外,客户端只能接收数据。SSE消息是纯文本格式,S…

作者头像 李华
网站建设 2026/7/2 1:46:10

Qt问题记录002:QMap的erase陷阱,正常运行与调试模式结果不同

Qt的QMap循环删除元素(erase),在运行时正常,在调试模式下报错,提供解决代码。关键词:QMap、erase、迭代器、遍历与删除问题描述:在使用 Qt 的QMap 容器时,尝试在遍历过程中删除元素&…

作者头像 李华
网站建设 2026/7/2 1:42:03

大模型评测与AI产品质量保障:第7篇 机器学习的三种学习范式

IT策士 10余年一线大厂经验,专注大模型测试、AI产品质量保障与职场进阶。我会在各个平台持续发布最新文章,助你少走弯路。 上一篇文章我们拆解了AI的六块技术拼图。但无论哪块拼图,背后驱动模型学习的都是三种核心范式——有监督学习、无监督…

作者头像 李华