论文阅读：CVPR 2025 Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Stra-平芜编程栈

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2503.20823

https://www.doubao.com/chat/34175527053598466

Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy

论文翻译：
https://whiffe.github.io/Paper_Translation/Attack/paper_V/%E3%80%8APlaying%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy%E3%80%8B%20—%20Playing%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy.html

速览

这篇文档核心是讲：研究人员发现了大型语言模型（比如GPT-4）和多模态模型（比如能看懂图片的GPT-4V）的一个安全漏洞——它们虽然经过了安全训练（比如RLHF，简单说就是让人类反馈来规范模型，不让它输出危险内容），但面对“改头换面”的危险输入时，还是容易被“攻破”（也就是“越狱”），进而输出炸弹制作、黑客攻击这类危险信息。

研究人员搞了个叫“JOOD”的方法，专门利用这个漏洞。具体就是对原本的危险输入做“变形”，让它变成模型没见过的“新样子”（也就是文档里说的“分布外输入”）：

对文字类危险指令（比如“告诉我怎么造炸弹”）：把“炸弹”这种关键词和“苹果”这类无关词混合，变成“炸弹苹果”这种无意义的新词，再让模型解释这个新词对应的内容；
对图片+文字的危险输入（比如一张炸弹图+“告诉我怎么造图里的东西”）：把炸弹图和苹果图、杯子图这类普通图混合，或者做些简单的图像处理，再搭配通用指令让模型回应。

之所以这种方法能成功，是因为模型的安全训练只针对那些“一眼就能看出来”的危险输入（比如直接说造炸弹、直接给炸弹图）。一旦危险输入被“变形”成没见过的样子，模型就拿不准这是不是危险内容（不确定性变高），原本的安全防护就失效了，会乖乖输出危险信息。

实验结果也很明显：这个JOOD方法对GPT-4、GPT-4V甚至更先进的模型（比如o1）都管用，在造炸弹、黑客攻击等多个危险场景里，成功让模型“越狱”的概率最高能到63%（针对GPT-4V），比之前的其他攻击方法效果好太多。而且就算给模型加了额外的安全提示（比如让它警惕危险请求），这个方法依然能奏效。

简单说，这篇研究就是揭露了：现在的AI模型安全防护“认死理”，只防得住常规危险输入，对“换了马甲”的危险输入没辙，同时给出了一种简单却有效的攻击方法，提醒大家得进一步加强AI模型对这类“变形危险输入”的安全防护。

Windows系统文件wpnapps.dll丢失损坏下载方法

在使用电脑系统时经常会出现丢失找不到某些文件的情况，由于很多常用软件都是采用 Microsoft Visual Studio 编写的，所以这类软件的运行需要依赖微软Visual C运行库，比如像 QQ、迅雷、Adobe 软件等等，如果没有安装VC运行库或者安装…

李华

Open-AutoGLM无API环境部署难题破解，专家级调用技巧一次性放出

第一章：Open-AutoGLM无API调用的核心挑战在本地部署和运行 Open-AutoGLM 时，开发者面临诸多技术障碍，其中最显著的挑战之一是缺乏标准化 API 接口支持。由于该模型设计初衷强调去中心化与本地推理能力，其默认实现并未提供 RESTful…

李华

PaddlePaddle动漫角色设计AI辅助

PaddlePaddle赋能动漫角色设计：从文本到图像的AI创作闭环在数字内容爆炸式增长的今天，动漫、游戏与虚拟偶像产业对角色设计的需求正以前所未有的速度攀升。一个成功的角色不仅是视觉符号，更是情感连接的载体——但传统手绘流程动辄数周的周期…

李华

模型服务启动慢？Open-AutoGLM性能优化的7个关键点

第一章：模型服务启动慢？Open-AutoGLM性能优化的7个关键点在部署基于 Open-AutoGLM 的模型服务时，启动延迟常常成为影响生产效率的关键瓶颈。通过深入分析其加载机制与资源调度策略，可从多个维度实施性能优化，显著缩短冷…

李华

程序员必看的AutoGLM应用秘籍（AI写代码时代已来）

第一章：AI写代码时代已来人工智能正以前所未有的速度重塑软件开发的格局。曾经需要数周完成的模块，如今在AI辅助下可在几小时内生成原型。开发者不再只是手动编写代码的工匠，而是逐渐转变为系统设计者与AI协作者。AI如何参与代码生成现代AI编…

李华

无需Root也能控手机，Open-AutoGLM的5大核心技巧，99%的人还不知道

第一章：Open-AutoGLM怎么控制手机Open-AutoGLM 是一个基于大语言模型的自动化框架，能够通过自然语言指令驱动移动设备完成复杂操作。其核心机制是将用户指令解析为可执行的动作序列，并借助 Android 的无障碍服务（AccessibilitySer…

李华