news 2026/5/13 22:49:18

研究发现LLM可靠性缺陷:语法模式干扰推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
研究发现LLM可靠性缺陷:语法模式干扰推理

研究人员发现导致大语言模型可靠性下降的缺陷

大语言模型(LLMs)有时会学到错误的经验。根据麻省理工学院的一项研究,LLM 在回答查询时,可能并非基于领域知识,而是利用了在训练中学到的语法模式。这可能导致模型在执行新任务时意外失败。

研究人员发现,模型会错误地将某些句子模式与特定主题联系起来,因此,LLM 可能通过识别熟悉的措辞而非理解问题来给出看似合理的答案。他们的实验表明,即使是最强大的 LLM 也会犯这种错误。

这个缺陷可能会降低 LLM 在执行处理客户咨询、总结临床记录和生成财务报告等任务时的可靠性。它还可能带来安全风险。恶意行为者可能利用这一点,诱使 LLM 生成有害内容,即使模型设有防护措施来阻止此类响应。

在识别这一现象并探索其影响后,研究人员开发了一种基准测试流程来评估模型对这些错误关联的依赖程度。该流程可以帮助开发人员在部署 LLM 之前缓解此问题。

“这是模型训练方式的副产品,但模型现在已在安全关键领域实际使用,其范围远超产生这些句法故障模式的任务。如果您作为终端用户不熟悉模型训练,这很可能是意料之外的,”麻省理工学院电气工程与计算机科学系副教授、本研究的高级作者 Marzyeh Ghassemi 说。

困于语法

LLMs 在互联网上的海量文本上进行训练。在此训练过程中,模型学习理解单词和短语之间的关系——这些知识随后被用于回答查询。

在先前的工作中,研究人员发现 LLM 会捕捉训练数据中经常一起出现的词性模式。他们称这些词性模式为“句法模板”。

LLM 需要这种句法理解,连同语义知识,来回答特定领域的问题。

“例如,在新闻领域,存在一种特定的写作风格。因此,模型不仅在学习语义,还在学习如何组合句子以遵循该领域特定风格的基础结构,”共同主要作者之一 Chantal Shaib 解释道。

但在这项研究中,他们确定 LLM 会学会将这些句法模板与特定领域关联起来。模型在回答问题时可能错误地仅仅依赖这种习得的关联,而非对查询和主题的理解。

例如,LLM 可能会学到像 “Where is Paris located?”(巴黎位于何处?)这样的问题,其结构是副词/动词/专有名词/动词。如果模型的训练数据中有许多这种句子结构的例子,LLM 可能会将该句法模板与关于国家的问题关联起来。

因此,如果向模型提出一个具有相同语法结构但包含无意义词汇的新问题,例如 “Quickly sit Paris clouded?”,它可能会回答 “France”(法国),尽管这个答案毫无意义。

“这是模型为了正确回答问题而学习到的一种被忽视的关联类型。我们应该更密切地关注用于训练模型的数据的句法和语义,”Shaib 说。

忽略含义

研究人员通过设计合成实验来测试这一现象,在实验中,每个领域的训练数据中只出现一种句法模板。他们通过用同义词、反义词或随机词替换单词来测试模型,但保持底层句法不变。

在每种情况下,他们发现 LLM 通常仍然会给出正确答案,即使问题完全是无意义的。

当他们使用新的词性模式重组相同的问题时,LLM 常常无法给出正确的回应,尽管问题的基本含义保持不变。

他们使用这种方法测试了像 GPT-4 和 Llama 这样的预训练 LLM,发现这种相同的习得行为显著降低了它们的性能。

出于对这些发现更广泛影响的好奇,研究人员研究了是否有人可以利用这一现象,从一个被刻意训练为拒绝此类请求的 LLM 中诱发出有害响应。

他们发现,通过使用模型与“安全”数据集(不包含有害信息的数据集)相关联的句法模板来表述问题,他们可以诱骗模型覆盖其拒绝策略并生成有害内容。

“从这项工作中,我清楚地认识到,我们需要更强大的防御措施来解决 LLM 中的安全漏洞。在本文中,我们识别了一种由于 LLM 学习方式而产生的新漏洞。因此,我们需要基于 LLM 如何学习语言来寻找新的防御措施,而不仅仅是针对不同漏洞的临时解决方案,”共同主要作者之一 Vinith Suriyakumar 说。

虽然研究人员在这项工作中没有探索缓解策略,但他们开发了一种自动化基准测试技术,可用于评估 LLM 对这种错误的句法-领域关联的依赖程度。这项新测试可以帮助开发人员主动解决其模型中的这一缺陷,降低安全风险并提高性能。

未来,研究人员希望研究潜在的缓解策略,这可能涉及扩充训练数据以提供更多样化的句法模板。他们也有兴趣在推理模型中探索这一现象,推理模型是专门设计用于处理多步任务的特殊类型 LLM。

“我认为这是研究 LLM 故障模式的一个非常有创意的角度。这项工作强调了语言知识和分析在 LLM 安全研究中的重要性,这方面虽未成为中心舞台,但显然应该是,”未参与此项工作的德克萨斯大学奥斯汀分校副教授 Jessy Li 说。

这项工作部分由 Bridgewater AIA Labs Fellowship、美国国家科学基金会、Gordon and Betty Moore Foundation、Google Research Award 和 Schmidt Sciences 资助。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 15:36:02

[STM32F4] 【STM32F413 Discovery 】宝刀未老的F4牛刀小试

收到二姨家送的开发板: STM32F413 Discovery,感谢大姨大管家二姨小跑堂。上图:STM32F413 Discovery套件是一款开发板,能够轻松地在基于Arm Cortex-M4内核的STM32F4系列高性能微控制器上开发应用程序。该套件结合了多种功能&#x…

作者头像 李华
网站建设 2026/5/13 16:41:12

十年十篇 • 数启新程:《分布式技术在大模型训练和推理中的应用》

编者按:十年深耕,十篇精粹。数据已成为核心生产要素,《大数据》见证技术突破与政策赋能的双向奔赴。本次甄选十篇文章,涵盖高被引理论成果、政策落地研究与社会前沿热点,既是学科发展的缩影,更是产业实践的…

作者头像 李华
网站建设 2026/5/12 21:56:00

快速搞懂五种主流AI Agent框架!解决选择困难~

前言 在2023年以前,AI Agent更多是强化学习领域的概念,通过在复杂环境中获取人类反馈的奖励信息从而得以不断提升。 大模型的出现为AI Agent提供了“聪明的大脑”,并重新定义了AI Agent。 当前,由大模型驱动的AI Agent架构是比较常…

作者头像 李华
网站建设 2026/5/12 22:54:31

AI赋能的全球网络环境仿真:IoT设备测试新范式

在全球化IoT部署浪潮中,设备需适应从北欧极地低延迟5G到东南亚高抖动移动网络的极端环境差异。传统物理测试受限于地理条件与成本,难以覆盖纽约地铁信号衰减、撒哈拉沙漠高温网络波动等场景。本文系统性阐述基于AI的全球网络环境仿真技术如何重构测试方法…

作者头像 李华
网站建设 2026/5/5 23:54:16

uniapp个人健康养生运动推荐管理小助手小程序php python

文章目录 功能概述技术架构核心模块扩展能力部署要点 系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 功能概述 该小程序基于UniApp跨平台框架开发,结合PHP或Python后端,实…

作者头像 李华
网站建设 2026/5/10 2:20:40

设计模式——责任链模式

责任链模式 (Chain of Responsibility Pattern) 什么是责任链模式? 责任链模式是一种行为型设计模式,它允许你将请求沿着处理者链传递,直到有一个处理者能够处理该请求。 简单来说:责任链模式就是"踢皮球",一…

作者头像 李华