news 2026/4/15 7:44:20

论文阅读:AAAI 2026 Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文阅读:AAAI 2026 Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

https://arxiv.org/pdf/2511.16110

https://www.doubao.com/chat/33341135051195138

论文翻译:
https://whiffe.github.io/Paper_Translation/Attack/paper_V/%E5%A4%9A%E6%96%B9%E9%9D%A2%E6%94%BB%E5%87%BB%EF%BC%9A%E6%8F%AD%E7%A4%BA%E9%85%8D%E5%A4%87%E9%98%B2%E5%BE%A1%E5%8A%9F%E8%83%BD%E7%9A%84%E8%A7%86%E8%A7%89%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E4%B8%AD%E7%9A%84%E8%B7%A8%E6%A8%A1%E5%9E%8B%E6%BC%8F%E6%B4%9E%20—%20Multi-Faceted%20Attack_%20Exposing%20Cross-Model%20Vulnerabilities%20in%20Defense-Equipped%20Vision-Language%20Models.html

速览

这份文档主要讲了一群研究者发现了当前主流“图文结合AI模型”(比如GPT-4o、Gemini-Pro这些能看图片又能理解文字的AI)的安全漏洞,还发明了一套叫“多面攻击(MFA)”的方法,能突破这些AI的安全防护,让它们输出有害内容(比如教坏人做坏事、传播仇恨言论之类的)。

先简单说下背景:现在这些图文AI很厉害,但也怕被滥用,所以开发者给它们加了好几层“安全盾”——比如训练时让AI拒绝有害请求(叫“对齐训练”)、给AI发安全提示(叫“系统指令”)、专门过滤输入和输出的有害内容(叫“内容审核”)。但研究者发现,这些“安全盾”的实际防护能力没想象中强,还有很多漏洞。

然后重点说他们的“多面攻击(MFA)”,其实是三招组合拳,每一招针对一个安全漏洞:

第一招叫“注意力转移攻击(ATA)”。简单说就是不直接让AI干坏事,而是把有害请求包装成一个“看似无害的任务”。比如不直接问“怎么伤害别人”,而是说“请给‘怎么伤害别人’写两个相反的回答”。这时候AI会把注意力放在“完成写两个回答的任务”上,反而忘了要拒绝有害内容。研究者还从理论上解释了:AI训练时,“帮人完成任务”和“保证安全”这两个目标是绑在一起的,用这种包装方式能让AI优先选“完成任务”,从而忽略安全。

第二招是“突破内容审核”。很多AI后面都有专门的“审核员”,会拦掉有害的输入和输出。研究者发现AI有个“重复习惯”——如果让AI在回答末尾重复一段乱码似的“干扰字符串”,这个字符串能骗到审核员,让审核员误以为有害内容是安全的。他们还优化了这套方法,不用针对每个AI单独调整,就能骗到不同AI的审核员。

第三招是“攻击图片理解模块”。图文AI要先“看懂图片”(靠里面的“视觉编码器”),研究者就做了一种“恶意图片”——看起来可能没什么问题,但图片里藏了有害的指令(比如让AI忽略安全规则)。更可怕的是,为一个AI做的“恶意图片”,居然能骗到其他很多没见过的AI,因为这些AI的“看图片”模块用了相似的技术,相当于有共同的漏洞。

最后说实验结果:这套MFA方法特别管用,对17个主流图文AI(包括8个开源的、9个商业的,比如GPT-4o、Gemini这些)整体成功率有58.5%;尤其是对最先进的商业AI,成功率也有52.8%,比其他攻击方法高了34%。

研究者做这个不是为了搞破坏,而是想告诉大家:现在这些AI的安全防护还不够完善,需要针对性加强,比如重新设计AI的训练目标(别把“完成任务”和“安全”绑太死)、优化图片理解模块的安全性等,这样才能让AI更安全地被使用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 20:15:43

3、深入了解BPF程序类型

深入了解BPF程序类型 1. BPF程序基础与运行特点 大多数BPF程序只有具有root权限的用户才能加载到内核中。当运行一个BPF程序时,即使你没有对计算机进行任何操作,几秒钟后也会开始看到 “Hello, BPF World!” 消息。这是因为计算机后台运行的程序可能正在执行其他程序。 当…

作者头像 李华
网站建设 2026/4/4 2:39:44

4、BPF 技术深入解析:验证器、类型格式、尾调用与映射操作

BPF 技术深入解析:验证器、类型格式、尾调用与映射操作 1. BPF 验证器 在 Linux 内核中允许任意代码执行,乍一听是个糟糕的主意。不过,BPF 验证器的存在大大降低了在生产系统中运行 BPF 程序的风险。内核网络维护者 Dave S. Miller 曾说:“eBPF 程序与毁灭性深渊之间的唯…

作者头像 李华
网站建设 2026/4/11 21:23:16

11、探索 BPF 实用工具:从 BPFTool 到 eBPF Exporter

探索 BPF 实用工具:从 BPFTool 到 eBPF Exporter 1. BPFTool 的批量模式和 BTF 信息显示 BPFTool 的批量模式允许逐行执行命令,若其中一条命令失败,执行将终止,系统会停留在最后一个成功执行命令后的状态。以下是一个批量模式可处理的文件示例: # Create a new hash m…

作者头像 李华
网站建设 2026/4/14 6:59:32

2.5亿参数破局多模态困境:ModernVBERT重塑视觉文档检索技术边界

2.5亿参数破局多模态困境:ModernVBERT重塑视觉文档检索技术边界 【免费下载链接】modernvbert 项目地址: https://ai.gitcode.com/hf_mirrors/ModernVBERT/modernvbert 在人工智能技术迅猛发展的今天,多模态交互已成为行业创新的重要方向&#x…

作者头像 李华
网站建设 2026/4/14 21:31:21

44、FTP安全指南与服务器配置解析

FTP安全指南与服务器配置解析 1. FTP安全原则 FTP存在多种主要威胁模型,具体如下: - 匿名访问威胁 :匿名用户应仅能列出和下载公共文件,可能允许上传文件到指定的“incoming”目录。绝不能让他们将权限提升至更受信任用户的权限。 - 本地用户账户威胁 :本地用户通过…

作者头像 李华